前言
系列文章
1、概率的公理化定义
在任何一本概率论教材中,开篇必然是介绍样本空间与随机事件,但是这种形式上的表述并不严谨,而且事实上关于随机事件与概率也很难给出精确定义。为了避免含糊不清,我们直接采用集合论与公理化的方法进行说明。
1.1:集合论知识回顾
定义1.1:集合
集合是指具有某种确定性质的具体的或抽象的对象汇总而成的集体,并称其中的对象为元素。
若$a$是集合$A$的元素,称$a$属于$A$,记为$a\in A$,否则记为$a\notin A$。没有元素的集合称为空集,记为$\varnothing$。
定义1.2:子集
对于两个集合$A,B$,若集合$A$中的元素都是$B$中的元素,则称$A$是$B$的子集,记为$A\subseteq B$。若存在$A$中的某个元素不是$B$中的元素,则称$A$不是$B$的子集,记为$A\nsubseteq B$。
若$A\subseteq B$且$B \nsubseteq A$,则称$A$是$B$的真子集,记为$A\subsetneq B$;
若$A\subseteq B$且$B \subseteq A$,则称$A$与$B$相等,记为$A=B$;
此外我们规定:空集是任何集合的子集。
定义1.3:交集与并集
设有集合$A_1,\cdots,A_n,\cdots$,则称集合:
$$ \bigcup_{i=1}^\infty=\{x|\exists i\in N\geq1,s.t.x\in A_i\} $$
为集合$A_1,\cdots,A_n,\cdots$的并集;称集合:
$$ \bigcap_{i=1}^\infty=\{x|\forall i\in N\geq 1,x\in A_i\} $$
为集合$A_1,\cdots,A_n,\cdots$的交集。
定义1.4:差集
设有集合$A,B$,称所有属于$A$而不属于$B$的元素集合称为$A$与$B$的差集,即
$$ A-B=\{x|x\in A\ and\ x\notin B\} $$
定义1.5:余集
设$A\subseteq \Omega$,称差集$\Omega - A$为$A$的余集,记为$A^c$。
1.2:概率的公理化定义
定义1.6:概率空间
设集合系$\mathscr{F}$是由集合$\Omega$的一些子集组成的集合,设$P=P(\cdot)$是$\mathscr{F}$上定义的实值函数,如果有:
(1)$\Omega \in \mathscr{F}$;
(2)若$A\in\mathscr{F}$,则$A^c=\Omega-A\in\mathscr{F}$;
(3)若$A_n\in\mathscr{F},n=1,2,\cdots$,则$\bigcup_{n=1}^\infty A_n\in\mathscr{F}$;
(4)$P(A)\geq 0,\forall A\in \mathscr{F}$;
(5)$P(\Omega)=1$;
(6)若$A_n\in\mathscr{F},n=1,2,\cdots$,且$A_i\cap A_j=\varnothing,i\neq j$,则:
$$ P(\bigcup_{n=1}^\infty A_n)=\sum\limits_{n=1}^\infty P(A_n) $$
则称:
- 概率(测度):函数$P$
- 概率空间:组合$(\Omega,\mathscr{F},P)$
- 随机事件:集合$A\in\mathscr{F}$
- 随机事件的概率:$P(A)$
这里引入了测度的概念,简要定义如下:设集合系$\mathscr{F}$是由集合$\Omega$的一些子集组成的集合,$\varnothing \in \Omega$,对于$\mathscr{F}$上定义的函数$\mu$,如果有:$\forall A\in\mathscr{F},0\leq \mu(A)\leq +\infty$;$\mu(\varnothing)=0$;若$A_n\in\mathscr{F},n=1,\cdots$两两不相交且$\bigcup A_n\in\mathscr{F}$,则:
$$ \mu(\bigcup_{n=1}^\infty A_n)=\sum_{n=1}^\infty \mu(A_n) $$
则称$\mu$为一测度。可以看出,我们这里的概率测度$P$是一种特殊的测度。
定义1.7:$\sigma$域
设集合系$\mathscr{F}$是由集合$\Omega$的一些子集组成的集合,如果其具有定义1.6中的性质(1)$\sim$(3),则称$\mathscr{F}$是$\Omega$中的$\sigma$域($\sigma$代数)。
定理1.1:$\sigma$域的性质
设有$\Omega$上一些子集组成的$\sigma$域$\mathscr{F}$,则:
(1)若$A_i\in\mathscr{F}$,则$\bigcap A_i\in\mathscr{F},\bigcup A_i\in\mathscr{F}$
(2)若$A,B\in\mathscr{F}$,则$A-B\in\mathscr{F}$
定理1.2:概率$P$的性质
(1)$P(\varnothing)=0$
(2)若$A\in\mathscr{F}$,则$P(A^c)=1-P(A)$
(3)若$A,B\in\mathscr{F}$,且$A\subseteq B$,则:
$$ P(B-A)=P(B)-P(A)\geq0 $$
(4)若$A_n\in\mathscr{F},n=1,\cdots$且$A_n\subseteq A_{n+1}$,则
$$ P(\bigcup_{n=1}^\infty A_n)=\lim_{n\to\infty} P(A_n) $$
(5)若$A_n\in\mathscr{F},n=1,\cdots$且$A_n\supseteq A_{n+1}$,则
$$ P(\bigcap_{n=1}^\infty A_n)=\lim_{n\to\infty} P(A_n) $$
说明
我们根据定义1.6知道,对于$A\subseteq\Omega$而$A\notin \mathscr{F}$,$P(A)$是没有意义的。由于我们遇到的$\Omega$(基本上)都是可数的,故而可取$\mathscr{F}$是$\Omega$所有子集的集合,此时可以证明存在满足定义1.6的概率测度,因此下文不再刻意说明。而当$\Omega$不可数时又该如何呢?请参阅教材29~31页并参考其他的测度论与实分析教材。
1.3:随机事件及其概率
定义1.8:随机事件及其概率
我们在定义1.6中给出了随机事件的定义:对于一个概率空间$(\Omega,\mathscr{F},P)$,若集合$A\in\mathscr{F}$(必然有$A\subseteq \Omega$),则称$A$为该概率空间下的一个随机事件,简称事件,$P(A)$称为事件$A$的概率。
特别地,当$A=\Omega$时,称$A$为必然事件;当$A=\varnothing$时,称$A$为不可能事件。
若$A$为不可能事件(必然事件)则必有$P(A)=0(=1)$,反之则未必。
我们知道,随机事件的本质是集合,故而基于集合间关系我们可以定义事件间关系。
定义1.9:事件间关系
设有事件$A,B$,则有以下定义:
- $B$包含$A$:$A\subseteq B$
- $A,B$相等(等价):$A=B$
- $A$与$B$的交:$A\cap B$,也被记为$AB$
- $A$与$B$的并:$A\cup B$
- 对立事件$\overline{A}$($A$的余事件):$\Omega-A$
- $A$与$B$的差:$A-B$
- $A$与$B$互不相容(互斥):$A\cap B=\varnothing$
利用事件是集合这一点,结合概率$P$的定义与性质,我们可以得到许多结论,诸如:
定理1.3:Jordan公式
设有事件$A_1,\cdots,A_n,n\geq 2$,则:
$$ P(\bigcup_{i=1}^n A_i)=\sum\limits_{k=1}^n (-1)^{k-1} S_k $$
其中:
$$ S_k=\sum_{i_1<\cdots<i_k}P(A_{i_1}\cdots A_{i_k}),k=1,\cdots,n $$
显然这与研究并集基数的容斥原理类似。Jordan公式对$n$使用数学归纳法易证,参加教材19~20页。特别地,当$n=2$时,我们有下式:
$$ P(A\cup B)=P(A)+P(B)-P(AB) $$
2、古典概型
定义1.10:古典概型
设有一概率空间$(\Omega,\mathscr{F},P)$,其中$\Omega=\{\omega_1,\cdots,\omega_n\}$,$\mathscr{F}$为$\Omega$全体子集的集合。设有$n$个数$p_1,\cdots,p_n$,每个$p_i$对应一个$\omega_i$,且有:
$$ p_i\geq 0,\sum_{i=1}^n p_i = 1 $$
设有映射$P:\mathscr{F}\to[0,1]$,定义为:
$$ P(\varnothing)=0,\forall A\in\mathscr{F},P(A)=\sum\limits_{i:\omega_i\in A}p_i $$
容易验证$P$满足定义1.6中(4)~(6),此时称$(\Omega,\mathscr{F},P)$为有限概率空间。特别地,当$p_i=\frac{1}{n}$时,称$(\Omega,\mathscr{F},P)$为古典概型。
关于古典概型的例子与计算,我们在中学阶段已经接触很多了,这里只放一个例子:
匹配问题
某人写了$n$封信并准备了$n$个信封($n\geq 2$),而后随意地将信装入信封,试求至少有一封信装对了的概率。
答案:
$$ P(至少有一封信装对了)=\sum_{k=1}^n (-1)^{k-1}\frac{1}{k!} $$
定义1.11:事件的形式化表述
在很多问题特别是古典概型的一些问题中,由集合定义随机事件是不直观的,在不引起歧义的情况下很多时候我们用形式化的表达来刻画随机事件,诸如:
“投掷骰子,骰子点数为1”
此时事件可认为由两部分组成:动作:“投掷骰子”与事实:“骰子点数为1”。我们通常称这个动作为随机试验,由随机试验得到一个结果的过程为观测(或试验),观测的结果为样本。所有样本可能值的集合便是$\Omega$,故而$\Omega$也称为样本空间;某个事件形式化表述的第二部分刻画了若干样本的集合,显然这便是随机事件两种表述殊途同归之处。此外若$\Omega$是有限离散的,则由$\Omega$中单个元素构成的集合常称为基本事件。
在形式化表述中,对于某一次观测而得的样本$a$,若$a$属于事件$A$,则称在这一次观测中事件$A$发生,我们常常省略观测而简称为$A$发生。而$A$的概率$P(A)$也可以称为$A$发生的概率。
我们依托“发生”的表述可以定义更多事件,如:
事件C:C发生当且仅当A,B中有一个发生
显然地,事件$C$即是$A$与$B$的并,此时$P(C)=P(A\cup B)$。
3、条件概率与独立性
3.1:条件概率
定义1.12:条件概率
设有一概率空间$(\Omega,\mathscr{F},P)$,设有两个事件$A,B$,其中$P(B)\neq 0$。现有一实值函数$Q(A)$其值定义为:
$$ Q(A)=\frac{P(AB)}{P(B)} $$
可以证明,$(\Omega,\mathscr{F},Q)$也是一概率空间,此时称$Q$为条件概率(测度),为了凸显条件$B$,我们常记为$P(A|B)$。
定义1.13:条件概率的形式化表述
直观而言,对于条件概率$P(A|B)$,定义1.12给出了由事件$A,B$组合而成的事件$C$的概率的定义,其中:
事件C:某次观测,B已发生,C发生当且仅当A发生
事实上,对于任意事件的概率,都可以视作在条件$\Omega$下的条件概率。
定理1.4:乘法公式
由条件概率定义我们有:
$$ P(AB)=P(A|B)\cdot P(B) $$
推而广之,有:
$$ P(A_1\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|\bigcap_{i=1}^{n-1} A_i) $$
由于$(\Omega,\mathscr{F},P(\cdot|B))$也是一概率空间,所以我们在之前介绍的许多结论在条件概率中也是适用的,诸如:
$$ P(A\cup B|C)=P(A|C)+P(B|C)-P(AB|C) $$
3.2:独立性
定义1.14:两个事件独立
设有事件$A,B$,若:
$$ P(AB)=P(A)\cdot P(B) $$
则称$A$与$B$独立。容易知道,必然事件与不可能事件与任意事件独立。直观而言,$A$与$B$独立,则表明$B$发生与否不影响$A$发生的概率,因为在$P(B)\neq 0$时,有:
$$ P(A|B)=P(A) $$
定理1.5:两个事件独立的对偶定理
设有事件$A,B$,则以下命题等价:
$$ \begin{align} (1)A与B独立;&\quad (2)A与\bar{B}独立\\ (3)\bar{A}与B独立;&\quad (4)\bar{A}与\bar{B}独立 \end{align} $$
定义1.15:多个事件独立
设有事件$A_1,\cdots,A_n,n\geq 2$,若$\forall k\in\boldsymbol{Z}, 2\leq k \leq n$,有:
$$ P(A_{i_1}\cdots A_{i_k})=P(A_{i_1})\cdots P(A_{i_k}) $$
成立,其中$i_1,\cdots,i_k$是满足$1\leq i_1<\cdots<i_k\leq n$的任意$k$个整数,则称$A_1,\cdots,A_n$是独立的。
说明
为什么刻画多个事件独立需要这么多等式呢?直观上而言类比两个事件的情况,$n$个事件独立即表明任何一些事件的发生与否不影响其他事件发生的概率。为了完全刻画这一特性,我们需要总共$2^n-n-1$个等式。所以,单单说明两两独立是不够的。
对于三个事件$A,B,C$独立的情况,我们有判定条件:
$$ P(AB)=P(A)P(B)\\ P(BC)=P(B)P(C)\\ P(AC)=P(A)P(C)\\ P(ABC)=P(A)P(B)P(C) $$
3.3:条件独立性
定义1.16:条件独立性
设有事件$A,B,C$,其中$P(C)\neq 0$,若有:
$$ P(AB|C)=P(A|C)\cdot P(B|C) $$
则称事件$A,B$在条件$C$下是独立的。
定理1.6:独立性不蕴含条件独立性
设有事件$A,B,C$,其中$P(C)\neq 0$,若$A,B$独立,并不能说明$A,B$在条件$C$下是独立的;反之亦然。
我们用一个例子来说明这一点。考虑抛掷两枚均匀的硬币,某次观测的四种可能结果是等概率的。我们记事件:
事件A:第一枚硬币正面朝上
事件B:第二枚硬币正面朝上
事件C:两枚硬币的观测结果不同
显然$A,B$是独立的。我们来考察它们在$C$下是否条件独立:
$$ P(A|C)=\frac{1}{2},\quad P(B|C)=\frac{1}{2},\quad P(AB|C)=0 $$
所以$A,B$在条件$C$下并不独立。因此独立性并不蕴含条件独立性。至于说反过来也不蕴含,则见参考教材《概率导论》33页例1.21。
4、全概率公式与Bayes公式
定义1.17:概率空间的划分
设有一概率空间$(\Omega,\mathscr{F},P)$,若事件$B_1,\cdots,B_n,n\geq 2$满足:
(1)$B_1,\cdots,B_n$两两不相容且$P(B_i)>0$
(2)$\bigcup_{i=1}^n B_i=\Omega$
则称$B_1,\cdots,B_n$为概率空间$(\Omega,\mathscr{F},P)$的一个划分或完备事件组。
定理1.7:全概率公式
设有一概率空间$(\Omega,\mathscr{F},P)$与一个划分$B_1,\cdots,B_n$,对于任何事件$A$,皆有:
$$ P(A)=\sum\limits_{i=1}^n P(B_i)P(A|B_i) $$
特别地,在$n=2$时,有:
$$ P(A)=P(B)P(A|B)+P(\bar{B})P(A|\bar{B}) $$
定理1.8:Bayes公式
设有一概率空间$(\Omega,\mathscr{F},P)$与一个划分$B_1,\cdots,B_n$,对于任何事件$A$,若$P(A)>0$,则有:
$$ P(B_k|A)=\frac{P(B_k)P(A|B_k)}{\sum\limits_{i=1}^n P(B_i)P(A|B_i)},k=1.\cdots,n $$
5、独立试验序列
定义1.18:独立试验序列
设有事件$A$,对其进行$n$次独立重复的试验,所有结果构成的序列称为独立试验序列或伯努利序列,这$n$次试验称为$n$重伯努利试验。
定理1.9:
设有事件$A$,单次观测$A$发生的概率为$p$,则在一长为$n$的独立试验序列中,$A$发生$k$次的概率是:
$$ P(A发生k次)=\text{C}_{n}^k p^k(1-p)^{n-k},k=0,\cdots,n $$
从中我们可以知道:
$$ \sum\limits_{k=0}^n \text{C}_{n}^k p^k(1-p)^{n-k}=1 $$
而事实上,这个公式可以由二项式定理直接得出。
对于$\text{C}_{n}^k p^k(1-p)^{n-k}$,当$n,k$都很大的时候比较难计算,因此我们有如下的两个近似公式:
定理1.10:第一近似公式
我们首先介绍以下定理:
(Poisson)设$0<p<1$,且$\lim\limits_{n\to \infty}np=\lambda>0$,则:
$$ \lim\limits_{n\to \infty} \text{C}_{n}^k p^k(1-p)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda} $$
从而可知,当$n$较大而$p$较小时,有第一近似公式:
$$ P(A发生k次)\approx \frac{1}{k!} (np)^k e^{-np} $$
定理1.11:第二近似公式
当$n$很大而$p$不是很小时,有第二近似公式:
$$ P(A发生k次)\approx \frac{1}{\sqrt{np(1-p)}}\frac{1}{\sqrt{2\pi}} e^{-\frac{(k-np)^2}{np(1-p)}} $$
6、熵
我们知道,熵用以刻画所含信息量的多少,对于事件$A$,如果他是不可能事件,$A$的熵是没有意义的,因为它不可能发生。而对于其他的事件,显然$A$的熵随着概率的增加是减少的,特别地,必然事件的熵为0,因为那就是一句废话。
而对于两个相互独立的事件$A,B$,其交事件也即$A$与$B$都发生的信息量应该是$A$与$B$的信息量之和。综合上述两个特性,可以证明,$H(A)$具有形式:$-c\ln P(A)$。如果我们取$c=1$,则有下面的定义:
定义1.19:随机事件的熵
设有一事件$A$,其概率为$P(A)>0$,则$A$的熵定义为:$H(A)=-\ln P(A)$,其用以刻画$A$带来的信息量。
定义1.20:完备事件组的熵
设$A_1,\cdots,A_n$为一完备事件组,且$P(A_i)>0$,则称:
$$ H(A_1,\cdots,A_n)=-\sum\limits_{i=1}^n P(A_i)\ln P(A_i) $$