前言

  本章我们介绍几个用于刻画随机变量某方面特性的数字特征。需要说明的是,某个数字特征存在意味着其是一个有限的数,不考虑其为$\infty$的情况。

系列文章

1、数学期望

1.1:离散型随机变量的数学期望

定义3.1:离散型随机变量的数学期望

  设有一离散型随机变量$X$,其分布律为$p_k=P(X=x_k),k=1,2,\cdots$,$X$可能的所有取值$x_1,\cdots$是可数的,若级数$\sum_k x_kp_k$绝对收敛,则称其为$X$的数学期望,简称期望,记为$\mathbb{E}[X]$。数学期望刻画了一个随机变量的“平均水平”。

定理3.1:几个重要离散型随机变量的期望

(1)二项分布
  设$X\sim B(n,p)$,$p_k=\text C_{n}^k p^k (1-p)^{n-k},k=0,1,\cdots,n$。所以:

$$ \begin{align} \mathbb{E}[X]&=\sum_{k=0}^n k\text C_{n}^k p^k (1-p)^{n-k}\\ &=\sum_{k=1}^n \frac{n!}{(k-1)!(n-k)!}p^k(1-p)^{n-k}\\ &=np\sum_{l=0}^n \frac{(n-1)!}{l!(n-1-l)!}p^{l}(1-p)^{n-1-l}\ (let\ l=k-1)\\ &=np\text C_{n-1}^l p^l(1-p)^{n-1-l}=np \end{align} $$

(2)几何分布
  设$X\sim GE(p)$,$p_k=(1-p)^{k-1}p$,则:

$$ \mathbb{E}[X]=\sum_{k=1}^{+\infty} kp(1-p)^{k-1} =p\frac{1}{(1-(1-p))^2}=\frac{1}{p} $$

(3)Poisson分布
  设$X\sim P(\lambda)$,$p_k=\frac{1}{k!}\lambda^k e^{-\lambda},k=0,1,\cdots$,则:

$$ \begin{align} \mathbb{E}[X]&=\sum_{k=1}^{+\infty} k\frac{1}{k!}\lambda^k e^{-\lambda}\\ &=\lambda e^{-\lambda}\sum_{k=1}^{+\infty} \frac{\lambda^{k-1}}{(k-1)!}\\ &=\lambda e^{-\lambda}e^\lambda=\lambda \end{align} $$

1.2:一般随机变量的数学期望

  对于保留但不限于连续型随机变量的一般随机变量,如何定义属性期望呢?

定义3.2:随机变量的近似

  设有随机变量$X$,$\epsilon$为一任意给定的正数。我们于是可以将$\boldsymbol{R}$做一划分:

$$ \boldsymbol{R}=\bigcup_{k=-\infty}^{+\infty} [k\epsilon,(k+1)\epsilon),\ k\in\boldsymbol{Z} $$

  对于$X$的任意可能取值$x_i\in[k\epsilon,(k+1)\epsilon)$,取$x_i^*=k\epsilon$,将由所有$x_i^*$与$x$对应起来,得到的函数$X^*$称为$X$的近似。因为:$\lim_{\epsilon\to 0}X-X^*=0$。

可以证明,$X^*$是离散型随机变量
定义3.3:数学期望

  设有随机变量$X$,其近似为$X^*$。若$\lim_{\epsilon\to 0}\mathbb{E}[X^*]$存在,则将该值称为$X$的数学期望,同样记为$\mathbb{E}[X]$。

定理3.2:定义3.1与3.3在离散情况下等价

证明:
  设有一离散型随机变量$X$,$X$可能的所有取值$x_1,\cdots$是可数的,且级数$\sum_ix_ip_i$绝对收敛,其中$p_i=P(X=x_i)$。我们期望证明:

$$ \lim_{\epsilon \to 0}\sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon)=\sum_{i}x_i P(X=x_i)\tag{1} $$

  对于$x_i\in[k\epsilon,(k+1)\epsilon)>0$,有$x_i\geq k\epsilon$,又$X$是离散的,从而:

$$ \begin{align}\sum_{i}x_i P(X=x_i)&=\sum_{i:x_i\in[k\epsilon,(k+1)\epsilon)}x_iP(k\epsilon\leq X<(k+1)\epsilon)\\ &\geq\sum_{k=-\infty}^{+\infty} k\epsilon P(k\epsilon\leq X<(k+1)\epsilon)\\ &=\sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon) \end{align} $$

同时,对于$x_i\in[k\epsilon,(k+1)\epsilon)$,又有$x_i< (k+1)\epsilon$,所以:

$$ \begin{align} \sum_{i}x_i P(X=x_i)&<\sum_{k=-\infty}^{+\infty} (k+1)\epsilon P(X^*=k\epsilon)\\ &=\epsilon+\sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon) \end{align} $$

而在$x_i\leq0$时也有类似结论,从而在$\epsilon\to 0$时立刻有(1)式成立。

定理3.3:连续型随机变量的期望

  设连续型随机变量$X$的概率密度函数为$p(x)$,若积分:$\int_{-\infty}^{+\infty} xp(x)\text d x$绝对收敛,则$X$具有期望:

$$ \mathbb{E}[X]=\int_{-\infty}^{+\infty} xp(x)\text d x\tag{1} $$

证明:
  容易知道:

$$ P(X^*=k\epsilon)=\int_{k\epsilon}^{(k+1)\epsilon}p(x)\text dx $$

故而:(小于等于号的推导利用了积分第二中值定理)

$$ \begin{align} \sum_{k=-\infty}^{+\infty}|k\epsilon|P(X^*=k\epsilon)&=\sum_{k=-\infty}^{+\infty}|k\epsilon|\int_{k\epsilon}^{(k+1)\epsilon}p(x)\text dx\\ &\leq\sum_{k=-\infty}^{+\infty}\int_{k\epsilon}^{(k+1)}(|x|+\epsilon)p(x)\text dx\\ &=\epsilon+\int_{k\epsilon}^{(k+1)}|x|p(x)\text d x \end{align} $$

由积分:$\int_{-\infty}^{+\infty} xp(x)\text d x$绝对收敛,从而$\sum_{k=-\infty}^{+\infty}k\epsilon P(X^*=k\epsilon)$绝对收敛,因此$\mathbb{E}[X^*]$存在。而:(第一步代入(1)式)

$$ \begin{align} \left|\mathbb{E}[X^*]- \int_{-\infty}^{+\infty} xp(x)\text d x\right|&= \left | \sum_{k=-\infty}^{+\infty}k\epsilon \int_{k\epsilon}^{(k+1)\epsilon}p(x)\text dx-\sum_{k=-\infty}^{+\infty}\int_{k\epsilon}^{(k+1)}xp(x)\text dx\right|\\ &\leq \sum_{k=-\infty}^{+\infty}\int_{k\epsilon}^{(k+1)}|k\epsilon -x|p(x)\text dx\\ &\leq \epsilon \int_{-\infty}^{+\infty} p(x)\text dx=\epsilon \end{align} $$

由定义3.3知定理3.3成立。

1.3:数学期望的性质

定理3.4:数学期望的性质(1)

(1)若$X\equiv a$,则$\mathbb{E}[X]=a$
(2)若$X\geq 0$且$\mathbb{E}[X]$存在,则$\mathbb{E}[X]\geq 0$
(3)若$X,Y$具有相同的分布函数,且$\mathbb{E}[X]$存在,则$\mathbb{E}[Y]$存在并等于$\mathbb{E}[X]$
(4)若$X,Y$具有相同的概率函数,即$P(X=Y)=1$,则若$\mathbb{E}[X]$存在,则$\mathbb{E}[Y]$存在并等于$\mathbb{E}[X]$
  下面设$\mathbb{E}[X],\mathbb{E}[Y]$均存在。
(5)设$\eta=\eta(\omega)=X(\omega)+Y(\omega)$,则$\mathbb{E}[\eta]=\mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y]$
(6)若$X(\omega)\leq Y(\omega)$,则$\mathbb{E}[X]\leq \mathbb{E}[Y]$

  (3)与(4)说明,随机变量分布的“期望”与其概率函数的“期望”是一致的。

定理3.5:Markov不等式

  设有随机变量$X$且其所有可能取值非负,若$\mathbb{E}[X]$存在,则有:

$$ P(X\geq a)\leq \frac{\mathbb{E}[X]}{a} $$

  直观而言,Markov不等式指出若$X$均值很小,则$X$取较大值的概率也很小。

1.4:随机变量函数的期望

定理3.6:均值公式

(1)若离散型随机变量$X$的分布律为$p_k=P(X=x_k)$,设有函数$f$,若级数$\sum_k f(x_k)p_k$绝对收敛,则$X$的函数$f(X)$的期望为:

$$ \mathbb{E}[f(X)]=\sum_k f(x_k)p_k $$

(2)若连续型随机变量$X$的概率密度函数为$p(x)$,设有函数$f$,若积分$\int_{-\infty}^{+\infty} f(x)p(x)\text d x$绝对收敛,则$X$的函数$f(X)$的期望为:

$$ \mathbb{E}[f(X)]=\int_{-\infty}^{+\infty} f(x)p(x)\text d x $$

练习:设$X\sim U(0,2\pi)$,求$\mathbb{E}[\sin X]$
解:

$$ \mathbb{E}[\sin X]=\int_{-\infty}^{+\infty} \sin x p(x)\text dx=\int_{0}^{2\pi}\sin x \frac{1}{2\pi}\text dx=0 $$

  特别地,对于随机变量的线性函数的期望,有:$\mathbb{E}[aX+b]=a\mathbb{E}[X]+b,a\neq 0$

2、方差

定义3.4:方差

  设有一随机变量$X$,若$\mathbb{E}[X]$存在,且$\mathbb{E}[(X-\mathbb{E}[X])^2]$也存在,则称$\mathbb{E}[(X-\mathbb{E}[X])^2]$为$X$的方差,记为$\mathbb{D}[X]$或$\text{var}[X]$;称$\sqrt{\mathbb{E}[(X-\mathbb{E}[X])^2]}$为$X$的标准差,记为$\sigma_X$,因此有时方差也记作$\sigma^2$。
  若$\mathbb{D}[X]$存在,则其计算式为:

$$ \mathbb{D}[X]=\sum_k (x_k-\mathbb{E}[X])^2p_k\ or \ \mathbb{D}[X]=\int_{-\infty}^{+\infty} (x-\mathbb{E}[X])^2p(x)\text dx $$

定理3.7:Chebyshev不等式

  设有随机变量$X$,$\mathbb{E}[X],\mathbb{D}[X]$均存在,则对任意$\epsilon>0$,有:

$$ P(|X-\mathbb{E}[X]|\geq \epsilon)\leq \frac{1}{\epsilon^2}\mathbb{D}[X] $$

  直观而言,Chebyshev不等式指出若随机变量的方差很小,则其偏离期望的取值概率也很小。Chebychev不等式说明了方差刻画了随机变量的“偏离程度”,而且将数学上不好研究的$\mathbb{E}[|X-\mathbb{E}[X]|]$转化为好研究的$\mathbb{E}[(X-\mathbb{E}[X])^2]$。

定理3.8:方差的计算

(1)若离散型随机变量$X$的分布律为$p_k=P(X=x_k)$,若级数$\sum_k x_k^2p_k$绝对收敛,则$X$的方差为:

$$ \mathbb{D}[f(X)]=\sum_k x_k^2p_k-\mathbb{E}^2[X] $$

(2)若连续型随机变量$X$的概率密度函数为$p(x)$,若积分$\int_{-\infty}^{+\infty} x^2p(x)\text d x$绝对收敛,则$X$的方差为:

$$ \mathbb{D}[f(X)]=\int_{-\infty}^{+\infty} x^2p(x)\text d x-\mathbb{E}^2[X] $$

  设有$X$的函数:$f(X)=(X-\mathbb{E}[X])^2=X^2-2X\mathbb{E}[X]-\mathbb{E}^2[X]$,在利用定理3.6的均值公式易证。

3、矩

定义3.5:随机变量的矩

  设有一随机变量$X$,设有数$c$,在存在的前提下,$X$相对于值$c$的$n$阶矩为:

$$ \mathbb{E}[(X-c)^n] $$

特别地,当$c=0$时称之为$n$阶原点矩,简称$n$阶矩记为$\nu_n$;当$c=\mathbb{E}[X]$时称之为$n$阶中心矩,记为$\mu_n$。显然,$\mathbb{E}[X]=\nu_1,\mathbb{D}[X]=\mu_2$。

定理3.9:原点矩存在性的讨论

(1)$\mathbb{E}[X]$存在的充要条件是级数$\sum_{k=1}^{+\infty} P(|X|\geq k)$收敛。
(2)设有$|X|\leq Y$,且$\mathbb{E}[Y]$存在,则$\mathbb{E}[X]$存在且$|\mathbb{E}[X]|\leq \mathbb{E}[Y]$
(3)若对于某个$\alpha\geq 1$,$\mathbb{E}[|X|^\alpha]$存在,则$\mathbb{E}[X]$存在,且有:

$$ \mathbb{E}[X]\leq \left(\mathbb{E}[|X|^\alpha]\right)^\frac{1}{\alpha} $$

4、其他数字特征

定义3.6:分位数

  设有$0<p<1$,若有:

$$ P(X\leq a)\geq p\geq P(X<a) $$

则称$a$是$X$的$p$分位数或$p$分位点,记为$a_p$。特别地,0.5分位点称为中位数,常记作$\text{med}(X)$。注意,$a_p$一定存在但不一定唯一!

定义3.7:偏度与峰度

  在存在的前提下,称:$\alpha=\frac{\mu^3}{\sigma^3}$为$X$的偏度,$\gamma=\frac{\mu^4}{\sigma^4}$为$X$的峰度。为了统一表述,定义:$\frac{\mu^n}{\sigma^n}$为$X$的$n$阶标准矩。显然偏度是三阶标准矩而峰度是四阶标准矩。

如果觉得我的文章对你有用,请随意赞赏