概率论三：随机变量的数字特征

前言

本章我们介绍几个用于刻画随机变量某方面特性的数字特征。需要说明的是，某个数字特征存在意味着其是一个有限的数，不考虑其为$\infty$的情况。

系列文章

1、数学期望

1.1：离散型随机变量的数学期望

定义3.1：离散型随机变量的数学期望

设有一离散型随机变量$X$，其分布律为$p_k=P(X=x_k),k=1,2,\cdots$，$X$可能的所有取值$x_1,\cdots$是可数的，若级数$\sum_k x_kp_k$绝对收敛，则称其为$X$的数学期望，简称期望，记为$\mathbb{E}[X]$。数学期望刻画了一个随机变量的“平均水平”。

定理3.1：几个重要离散型随机变量的期望

（1）二项分布
设$X\sim B(n,p)$，$p_k=\text C_{n}^k p^k (1-p)^{n-k},k=0,1,\cdots,n$。所以：

$$ \begin{align} \mathbb{E}[X]&=\sum_{k=0}^n k\text C_{n}^k p^k (1-p)^{n-k}\\ &=\sum_{k=1}^n \frac{n!}{(k-1)!(n-k)!}p^k(1-p)^{n-k}\\ &=np\sum_{l=0}^n \frac{(n-1)!}{l!(n-1-l)!}p^{l}(1-p)^{n-1-l}\ (let\ l=k-1)\\ &=np\text C_{n-1}^l p^l(1-p)^{n-1-l}=np \end{align} $$

（2）几何分布
设$X\sim GE(p)$，$p_k=(1-p)^{k-1}p$，则：

$$ \mathbb{E}[X]=\sum_{k=1}^{+\infty} kp(1-p)^{k-1} =p\frac{1}{(1-(1-p))^2}=\frac{1}{p} $$

（3）Poisson分布
设$X\sim P(\lambda)$，$p_k=\frac{1}{k!}\lambda^k e^{-\lambda},k=0,1,\cdots$，则：

$$ \begin{align} \mathbb{E}[X]&=\sum_{k=1}^{+\infty} k\frac{1}{k!}\lambda^k e^{-\lambda}\\ &=\lambda e^{-\lambda}\sum_{k=1}^{+\infty} \frac{\lambda^{k-1}}{(k-1)!}\\ &=\lambda e^{-\lambda}e^\lambda=\lambda \end{align} $$

1.2：一般随机变量的数学期望

对于保留但不限于连续型随机变量的一般随机变量，如何定义属性期望呢？

定义3.2：随机变量的近似

设有随机变量$X$，$\epsilon$为一任意给定的正数。我们于是可以将$\boldsymbol{R}$做一划分：

$$ \boldsymbol{R}=\bigcup_{k=-\infty}^{+\infty} [k\epsilon,(k+1)\epsilon),\ k\in\boldsymbol{Z} $$

对于$X$的任意可能取值$x_i\in[k\epsilon,(k+1)\epsilon)$，取$x_i^*=k\epsilon$，将由所有$x_i^*$与$x$对应起来，得到的函数$X^*$称为$X$的近似。因为：$\lim_{\epsilon\to 0}X-X^*=0$。

可以证明，$X^*$是离散型随机变量。

定义3.3：数学期望

设有随机变量$X$，其近似为$X^*$。若$\lim_{\epsilon\to 0}\mathbb{E}[X^*]$存在，则将该值称为$X$的数学期望，同样记为$\mathbb{E}[X]$。

定理3.2：定义3.1与3.3在离散情况下等价

证明：
设有一离散型随机变量$X$，$X$可能的所有取值$x_1,\cdots$是可数的，且级数$\sum_ix_ip_i$绝对收敛，其中$p_i=P(X=x_i)$。我们期望证明：

$$ \lim_{\epsilon \to 0}\sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon)=\sum_{i}x_i P(X=x_i)\tag{1} $$

对于$x_i\in[k\epsilon,(k+1)\epsilon)>0$，有$x_i\geq k\epsilon$，又$X$是离散的，从而：

$$ \begin{align}\sum_{i}x_i P(X=x_i)&=\sum_{i:x_i\in[k\epsilon,(k+1)\epsilon)}x_iP(k\epsilon\leq X<(k+1)\epsilon)\\ &\geq\sum_{k=-\infty}^{+\infty} k\epsilon P(k\epsilon\leq X<(k+1)\epsilon)\\ &=\sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon) \end{align} $$

同时，对于$x_i\in[k\epsilon,(k+1)\epsilon)$，又有$x_i< (k+1)\epsilon$，所以：

$$ \begin{align} \sum_{i}x_i P(X=x_i)&<\sum_{k=-\infty}^{+\infty} (k+1)\epsilon P(X^*=k\epsilon)\\ &=\epsilon+\sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon) \end{align} $$

而在$x_i\leq0$时也有类似结论，从而在$\epsilon\to 0$时立刻有（1）式成立。

定理3.3：连续型随机变量的期望

设连续型随机变量$X$的概率密度函数为$p(x)$，若积分：$\int_{-\infty}^{+\infty} xp(x)\text d x$绝对收敛，则$X$具有期望：

$$ \mathbb{E}[X]=\int_{-\infty}^{+\infty} xp(x)\text d x\tag{1} $$

证明：
容易知道：

$$ P(X^*=k\epsilon)=\int_{k\epsilon}^{(k+1)\epsilon}p(x)\text dx $$

故而：（小于等于号的推导利用了积分第二中值定理）

$$ \begin{align} \sum_{k=-\infty}^{+\infty}|k\epsilon|P(X^*=k\epsilon)&=\sum_{k=-\infty}^{+\infty}|k\epsilon|\int_{k\epsilon}^{(k+1)\epsilon}p(x)\text dx\\ &\leq\sum_{k=-\infty}^{+\infty}\int_{k\epsilon}^{(k+1)}(|x|+\epsilon)p(x)\text dx\\ &=\epsilon+\int_{k\epsilon}^{(k+1)}|x|p(x)\text d x \end{align} $$

由积分：$\int_{-\infty}^{+\infty} xp(x)\text d x$绝对收敛，从而$\sum_{k=-\infty}^{+\infty}k\epsilon P(X^*=k\epsilon)$绝对收敛，因此$\mathbb{E}[X^*]$存在。而：（第一步代入（1）式）

$$ \begin{align} \left|\mathbb{E}[X^*]- \int_{-\infty}^{+\infty} xp(x)\text d x\right|&= \left | \sum_{k=-\infty}^{+\infty}k\epsilon \int_{k\epsilon}^{(k+1)\epsilon}p(x)\text dx-\sum_{k=-\infty}^{+\infty}\int_{k\epsilon}^{(k+1)}xp(x)\text dx\right|\\ &\leq \sum_{k=-\infty}^{+\infty}\int_{k\epsilon}^{(k+1)}|k\epsilon -x|p(x)\text dx\\ &\leq \epsilon \int_{-\infty}^{+\infty} p(x)\text dx=\epsilon \end{align} $$

由定义3.3知定理3.3成立。

1.3：数学期望的性质

定理3.4：数学期望的性质（1）

（1）若$X\equiv a$，则$\mathbb{E}[X]=a$
（2）若$X\geq 0$且$\mathbb{E}[X]$存在，则$\mathbb{E}[X]\geq 0$
（3）若$X,Y$具有相同的分布函数，且$\mathbb{E}[X]$存在，则$\mathbb{E}[Y]$存在并等于$\mathbb{E}[X]$
（4）若$X,Y$具有相同的概率函数，即$P(X=Y)=1$，则若$\mathbb{E}[X]$存在，则$\mathbb{E}[Y]$存在并等于$\mathbb{E}[X]$
下面设$\mathbb{E}[X],\mathbb{E}[Y]$均存在。
（5）设$\eta=\eta(\omega)=X(\omega)+Y(\omega)$，则$\mathbb{E}[\eta]=\mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y]$
（6）若$X(\omega)\leq Y(\omega)$，则$\mathbb{E}[X]\leq \mathbb{E}[Y]$

（3）与（4）说明，随机变量分布的“期望”与其概率函数的“期望”是一致的。

定理3.5：Markov不等式

设有随机变量$X$且其所有可能取值非负，若$\mathbb{E}[X]$存在，则有：

$$ P(X\geq a)\leq \frac{\mathbb{E}[X]}{a} $$

直观而言，Markov不等式指出若$X$均值很小，则$X$取较大值的概率也很小。

1.4：随机变量函数的期望

定理3.6：均值公式

（1）若离散型随机变量$X$的分布律为$p_k=P(X=x_k)$，设有函数$f$，若级数$\sum_k f(x_k)p_k$绝对收敛，则$X$的函数$f(X)$的期望为：

$$ \mathbb{E}[f(X)]=\sum_k f(x_k)p_k $$

（2）若连续型随机变量$X$的概率密度函数为$p(x)$，设有函数$f$，若积分$\int_{-\infty}^{+\infty} f(x)p(x)\text d x$绝对收敛，则$X$的函数$f(X)$的期望为：

$$ \mathbb{E}[f(X)]=\int_{-\infty}^{+\infty} f(x)p(x)\text d x $$

练习：设$X\sim U(0,2\pi)$，求$\mathbb{E}[\sin X]$
解：
$$ \mathbb{E}[\sin X]=\int_{-\infty}^{+\infty} \sin x p(x)\text dx=\int_{0}^{2\pi}\sin x \frac{1}{2\pi}\text dx=0 $$

特别地，对于随机变量的线性函数的期望，有：$\mathbb{E}[aX+b]=a\mathbb{E}[X]+b,a\neq 0$

2、方差

定义3.4：方差

设有一随机变量$X$，若$\mathbb{E}[X]$存在，且$\mathbb{E}[(X-\mathbb{E}[X])^2]$也存在，则称$\mathbb{E}[(X-\mathbb{E}[X])^2]$为$X$的方差，记为$\mathbb{D}[X]$或$\text{var}[X]$；称$\sqrt{\mathbb{E}[(X-\mathbb{E}[X])^2]}$为$X$的标准差，记为$\sigma_X$，因此有时方差也记作$\sigma^2$。
若$\mathbb{D}[X]$存在，则其计算式为：

$$ \mathbb{D}[X]=\sum_k (x_k-\mathbb{E}[X])^2p_k\ or \ \mathbb{D}[X]=\int_{-\infty}^{+\infty} (x-\mathbb{E}[X])^2p(x)\text dx $$

定理3.7：Chebyshev不等式

设有随机变量$X$，$\mathbb{E}[X],\mathbb{D}[X]$均存在，则对任意$\epsilon>0$，有：

$$ P(|X-\mathbb{E}[X]|\geq \epsilon)\leq \frac{1}{\epsilon^2}\mathbb{D}[X] $$

直观而言，Chebyshev不等式指出若随机变量的方差很小，则其偏离期望的取值概率也很小。Chebychev不等式说明了方差刻画了随机变量的“偏离程度”，而且将数学上不好研究的$\mathbb{E}[|X-\mathbb{E}[X]|]$转化为好研究的$\mathbb{E}[(X-\mathbb{E}[X])^2]$。

定理3.8：方差的计算

（1）若离散型随机变量$X$的分布律为$p_k=P(X=x_k)$，若级数$\sum_k x_k^2p_k$绝对收敛，则$X$的方差为：

$$ \mathbb{D}[f(X)]=\sum_k x_k^2p_k-\mathbb{E}^2[X] $$

（2）若连续型随机变量$X$的概率密度函数为$p(x)$，若积分$\int_{-\infty}^{+\infty} x^2p(x)\text d x$绝对收敛，则$X$的方差为：

$$ \mathbb{D}[f(X)]=\int_{-\infty}^{+\infty} x^2p(x)\text d x-\mathbb{E}^2[X] $$

设有$X$的函数：$f(X)=(X-\mathbb{E}[X])^2=X^2-2X\mathbb{E}[X]-\mathbb{E}^2[X]$，在利用定理3.6的均值公式易证。

3、矩

定义3.5：随机变量的矩

设有一随机变量$X$，设有数$c$，在存在的前提下，$X$相对于值$c$的$n$阶矩为：

$$ \mathbb{E}[(X-c)^n] $$

特别地，当$c=0$时称之为$n$阶原点矩，简称$n$阶矩记为$\nu_n$；当$c=\mathbb{E}[X]$时称之为$n$阶中心矩，记为$\mu_n$。显然，$\mathbb{E}[X]=\nu_1,\mathbb{D}[X]=\mu_2$。

定理3.9：原点矩存在性的讨论

（1）$\mathbb{E}[X]$存在的充要条件是级数$\sum_{k=1}^{+\infty} P(|X|\geq k)$收敛。
（2）设有$|X|\leq Y$，且$\mathbb{E}[Y]$存在，则$\mathbb{E}[X]$存在且$|\mathbb{E}[X]|\leq \mathbb{E}[Y]$
（3）若对于某个$\alpha\geq 1$，$\mathbb{E}[|X|^\alpha]$存在，则$\mathbb{E}[X]$存在，且有：

$$ \mathbb{E}[X]\leq \left(\mathbb{E}[|X|^\alpha]\right)^\frac{1}{\alpha} $$

4、其他数字特征

定义3.6：分位数

设有$0<p<1$，若有：

$$ P(X\leq a)\geq p\geq P(X<a) $$

则称$a$是$X$的$p$分位数或$p$分位点，记为$a_p$。特别地，0.5分位点称为中位数，常记作$\text{med}(X)$。注意，$a_p$一定存在但不一定唯一！

定义3.7：偏度与峰度

在存在的前提下，称：$\alpha=\frac{\mu^3}{\sigma^3}$为$X$的偏度，$\gamma=\frac{\mu^4}{\sigma^4}$为$X$的峰度。为了统一表述，定义：$\frac{\mu^n}{\sigma^n}$为$X$的$n$阶标准矩。显然偏度是三阶标准矩而峰度是四阶标准矩。

前言