前言

系列文章

1、随机向量的概念

定义4.1:随机向量

  设有概率空间$(\Omega,\mathscr{F},P)$上的$n$个随机变量$X_1=X_1(\omega),\cdots,X_n=X_n(\omega)$,则称:

$$ \boldsymbol{\xi}=\boldsymbol{\xi}(\omega)=\left(X_1(\omega),\cdots,X_n(\omega)\right) $$

为概率空间$(\Omega,\mathscr{F},P)$上的$n$维随机向量

定义4.2:随机向量的函数

  设有$n$个随机变量$X_1=X_1(\omega),\cdots,X_n=X_n(\omega)$,$f(x_1,\cdots,x_n)$为$n$元实值函数,则称随机变量$Y=f(X_1,\cdots,X_n)$为随机向量$(X_1,\cdots,X_n)$的函数
  显然地,随机向量的函数类比随机变量的函数。直观上理解,当$X_1$取值$x_1$……$X_n$取值$x_n$时,$Y$取值$f(x_1,\cdots,x_n)$。

  如何分析随机向量呢?类似于随机变量,我们还是主要研究离散型与连续型两类。我们先来看二维的情况。

2、二维随机向量的基本概念

2.1:二维随机向量的概念与联合概率函数

定义4.3:二维离散型随机向量

  设有概率空间$(\Omega,\mathscr{F},P)$上的随机变量$X,Y$,若其所有取值的组合:$\{x_i,y_j\}$是可数的,则称随机向量$\boldsymbol{\xi}=(X,Y)$为二维离散型随机向量
  我们将所有取值的组合:$\{x_i,y_j\}$称为$\boldsymbol{\xi}$的取值范围,令:

$$ p_{ij}=P(X=x_i,Y=y_j) $$

称其为$\boldsymbol{\xi}$的联合概率函数,通常我们将$p_{ij}$按$x_i$与$y_j$列成一个表,故而也称为联合概率分布表。
  显然地,$p_{ij}\geq 0$,$\sum_i\sum_j p_{ij}=1$

定义4.4:二维连续型随机向量

  设有一随机向量$\boldsymbol{\xi}=(X,Y)$,如果存在非负函数$p(x,y),x,y\in\mathbb{R}$,使得对任何矩形:

$$ D=\{(x,y)|x\in(a,b),y\in(c,d),a<b,c<d\} $$

都有:

$$ P((X,Y)\in D)=\iint_{D} p(x,y)\text dx\text dy $$

则称$\boldsymbol{\xi}$为二维连续型随机向量,$p(x,y)$为$\boldsymbol{\xi}$的联合概率密度函数
  可以证明,若$\boldsymbol{\xi}$是连续型的,则对于$\mathbb{R}^2$上的相当任意集合$A$,有:

$$ P((X,Y)\in A)=\iint_A p(x,y)\text dx\text dy=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I_A(x,y)p(x,y)\text dx\text dy $$

其中$I_A$为集合$A$的示性函数。

定理4.1:联合概率密度函数的性质

  对于连续型随机向量的联合概率密度,我们有:
(1)$\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\text dx\text dy=1$
(2)若$p(x,y)$在$(x_0,y_0)$处连续,则:

$$ \lim_{\Delta x\to 0^+\\ \Delta y\to 0^+}\frac{1}{\Delta x\Delta y}P(x_0-\frac{\Delta x}{2}<X<x_0+\frac{\Delta x}{2},y_0-\frac{\Delta y}{2}<Y<y_0+\frac{\Delta y}{2})=p(x_0,y_0) $$

定义4.5:二维正态分布

  设有一连续型随机向量$\boldsymbol{\xi}=(X,Y)$,若其具有联合概率密度函数:

$$ p (x, y)=\frac{1}{2 \pi \sigma_X \sigma_Y \sqrt{1-\rho^2}} \mathrm{e}^{-\frac{1}{2\left(1-\rho^2\right)}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2-2 \rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right)+\left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right]} $$

则称$\boldsymbol{\xi}$服从二维正态分布,记为$\boldsymbol{\xi}\sim N(\mu_X,\mu_Y,\sigma_X,\sigma_Y,\rho)$。

2.2:二维随机向量的联合分布函数

定义4.6:二维随机向量的联合分布函数

  设有一二维随机向量$\boldsymbol{\xi}=(X,Y)$,则称:

$$ F(x,y)=P(X\leq x,Y\leq y) $$

为$\boldsymbol{\xi}$的联合分布函数。具体地:
(1)若$\boldsymbol{\xi}$是离散的,则:

$$ F(x,y)=\sum_{i:x_i\leq x}\sum_{j:y_j\leq y} p_{ij} $$

(2)若$\boldsymbol{\xi}$是连续的,则:

$$ F(x,y)=\int_{-\infty}^x \int_{-\infty}^y p(x,y)\text dx\text dy $$

定理4.2:联合分布函数的性质

(1)$0\leq F(x,y)\leq 1$
(2)$F(x,y)$对$x$或$y$均是右连续的增函数
(3)$\lim_{x\to -\infty} F(x,y)=0,\lim_{y\to -\infty} F(x,y)=0,\lim_{x\to +\infty,y\to +\infty} F(x,y)=1$

定理4.3:由联合分布函数得到联合概率密度函数

  设有一连续型随机向量$\boldsymbol{\xi}=(X,Y)$,其联合概率密度函数为$p(x,y)$,联合分布函数为$F(x.y)$,若$p(x,y)$连续,则:

$$ p(x,y)=\frac{\partial^2 F(x,y)}{\partial x\partial y} $$

2.3:边缘分布

定义4.7:边缘分布函数与边缘概率函数

  设有一随机向量$\boldsymbol{\xi}=(X,Y)$,称:$P(X\leq x)$为$\boldsymbol{\xi}$关于$X$的边缘分布函数,记为$F_X(x)$,相应的,有$F_Y(y)$。
  容易知道,若$\boldsymbol{\xi}$是离散型的,则

$$ F_X(x)=\sum_{i:x_i\leq x}\sum_j p_{ij} $$

若$\boldsymbol{\xi}$是连续型的,则:

$$ F_X(x)=\int_{-\infty}^x \left(\int_{-\infty}^{+\infty} p(x,y)\text dy\right)\text dx $$

  事实上,我们得到了离散型与连续型边缘分布的概率函数,若$\boldsymbol{\xi}$是离散的,则称:

$$ p_X(x_i)=\sum_j p_{ij} $$

为$\boldsymbol{\xi}$关于$X$的边缘概率分布律;若$\boldsymbol{\xi}$是连续型的,则称:

$$ p_X(x)=\int_{-\infty}^{+\infty} p(x,y)\text dy $$

为$\boldsymbol{\xi}$关于$X$的边缘概率密度函数

定理4.4:边缘分布与联合分布

(1)联合分布可以唯一确定每个分量的边缘分布
(2)每个分量的边缘分布不能唯一确定联合分布
  例如正态分布:
(3)二维正态分布的边缘分布都是正态分布
(4)正态分布的联合分布不一定是正态分布

3、随机变量的独立性

定义4.8:随机变量独立

  设有随机变量$X,Y$,若对任意$a<b,c<d$有事件$\{a<X<b\}$与事件$\{c<Y<d\}$独立,则称$X,Y$独立

可以证明,若$X,Y$相互独立,则对任意Borel集$A$,事件$\{X\in A\}$与事件$\{Y\in A\}$独立。
定理4.5:用联合分布刻画独立性

(1)设有离散型随机向量$\boldsymbol{\xi}=(X,Y)$,其联合概率函数为$p_{ij}=P(X=x_i,Y=y_j)$,则$X,Y$独立当且仅当对于任意$i,j$有:

$$ P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j) $$

(2)设有连续型随机向量$\boldsymbol{\xi}=(X,Y)$,其联合概率密度函数为$p(x,y)$,边缘概率密度函数为$p_X(x),p_Y(y)$,则$X,Y$独立当且仅当有:

$$ p(x,y)=p_X(x)p_Y(y) $$

(3)设有随机向量$\boldsymbol{\xi}=(X,Y)$,其分布函数为$F(x,y)$,其边缘分布函数为$F_X(x),F_Y(y)$,则$X,Y$独立当且仅当:

$$ F(x,y)=F_X(x)F_Y(y) $$

4、两个随机变量的函数

  本小节,我们研究如定义4.2中介绍的随机变量的二元函数:$Z=f(X,Y)$。

4.1:二维离散型随机变量的函数

定理4.6:二维离散型随机变量的函数的分布律

  设有二维离散型随机向量$\boldsymbol{\xi}=(X,Y)$,联合概率表为$p_{ij}=P(X=x_i,Y=y_j)$,设有$\boldsymbol{\xi}=(X,Y)$的函数$Z=f(X,Y)$,其所有可能的取值为$z_l,l=1,\cdots$,即$z_l=f(x_i,y_j)$,则$Z$的分布律为:

$$ p_l=P(Z=z_l)=\sum_{f(x_i,y_j)=z_l} p_{ij} $$

定理4.7:二维离散型随机变量卷积的分布律

  我们考虑特殊的随机变量函数:$Z=f(X,Y)=X+Y$,则$Z$的分布律为:

$$ \begin{align}P(Z=z_l)&=\sum_{x_i+y_j=z_l} P(X=x_i,Y=y_j)\\ &=\sum_{i} P(X=x_i,Y=z_l-x_i)\\ &=\sum_j P(X=z_l-y_j,Y=y_j) \end{align} $$

特别地,若$X,Y$独立,还有$P(X=x_i,Y=y_j)=P(X=x_i)P(y=y_j)$,等式右边可以简化。
  我们来看一个例子。设有独立的两个随机变量$X\sim P(\lambda_1),Y\sim P(\lambda_2)$,证明:$Z=X+Y \sim P(\lambda_1+\lambda_2)$。
证明:
  由题:有:

$$ \begin{align} P(Z=l)&=\sum_{k=0}^l P(X=k,Y=l-k)=\sum_{k=0}^l P(X=k)P(Y=l-k)\\ &=\sum_{k=0}^l \frac{\lambda_1^k}{k!}e^{-\lambda_1}\cdot \frac{\lambda_2^{l-k}}{(l-k)!}e^{-\lambda_2}\\ &=\frac{1}{l!}\sum_{k=0}^l \underbrace{\frac{l!}{k!(l-k)!}}_{\text C_{l}^k}\lambda_1^k\lambda_2^{l-k}e^{-(\lambda_1+\lambda_2)}\\ &=\frac{(\lambda_1+\lambda_2)^l}{l!}e^{-(\lambda_1+\lambda_2)} \end{align} $$

4.2:二维连续型随机变量的函数

定理4.8:二维连续型随机变量的函数的分布函数

  设有二维连续型随机向量$\boldsymbol{\xi}=(X,Y)$,联合概率密度函数为$p(x,y)$,设有二维随机变量的函数$Z=f(X,Y)$,记:$A=\{(x,y)|f(x,y)\leq z\}\subseteq \mathbb{R}^2$,则$Z$的分布函数为:

$$ F(z)=P(Z\in A )=\iint_{A} p(x,y)\text dx\text dy $$

定理4.9:二维连续型随机变量卷积的概率密度函数

  我们考虑特殊的随机变量函数:$Z=f(X,Y)=X+Y$,则$Z$的概率密度函数为:

$$ p(z)=\int_{-\infty}^{+\infty} p(x,z-x)\text dx=\int_{-\infty}^{+\infty} p(z-y,y)\text dy $$

特别地,若$X,Y$独立,则:

$$ p(z)=\int_{-\infty}^{+\infty} p_X(x)p_Y(z-x) \text dx=\int_{-\infty}^{+\infty} p_X(z-y)p_Y(y) \text dy $$

定理4.10:随机变量的可加性

  结合定理4.7与4.10,我们可以证明($X,Y$独立):
(1)若$X\sim P(\lambda_1),Y\sim P(\lambda_2)$,则$X+Y\sim P(\lambda_1+\lambda_2)$
(2)若$X\sim B(n_1,p_),Y\sim B(n_2,p)$,则$X+Y\sim B(n_1+n_2,p)$
(3)若$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma^2_2)$,则$X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$
  容易证明,上述的结论对于有限个随机变量也是成立的,这种性质称为随机变量的可加性

定义4.9:独立同分布

  设两个随机变量$X,Y$相互独立,且其具有完全相同的概率函数,则称它们为独立同分布的,记为$i.i.d$。

练习:设$X,Y\ i.i.d,X\sim N(0,1)$,则:$Z=\sqrt{X^2+Y^2}\sim R(1)$。

4.3:两个随机变量函数的期望与方差

定理4.10:

  设两个随机变量$X,Y$相互独立,且$\mathbb{E}[X],\mathbb{E}[Y]$均存在,则:

$$ \mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y] $$

定理4.11:

  设两个随机变量$X,Y$相互独立,且$X,Y$期望与方差均存在,则:

$$ \mathbb{D}[X+Y]=\mathbb{D}[X]+\mathbb{D}[Y] $$

定理4.12:均值公式

(1)设有二维离散型随机向量函数$Z=f(X,Y)$,其中$(X,Y)$所有可能取值$\boldsymbol{a}_1,\cdots$可数,若级数:$\sum_i f(\boldsymbol{a}_i)P((X,Y)=\boldsymbol{a}_i)$绝对收敛,则:

$$ \mathbb{E}[Z]=\sum_i f(\boldsymbol{a}_i)P((X,Y)=\boldsymbol{a}_i) $$

(2)设有二维连续型随机变量函数$Z=f(X,Y)$,其中$(X,Y)$的联合概率密度函数为$p(x,y)$,若积分:

$$ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)p(x,y)\text dx\text dy $$

绝对收敛,则:

$$ \mathbb{E}[Z]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)p(x,y)\text dx\text dy $$

5、二维随机向量的数字特征

定义4.10:协方差

  设两个随机变量$X,Y$,在存在的前提下,称:

$$ \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] $$

为$X,Y$的协方差,记为$\sigma_{XY}$或$\text{cov}(X,Y)$。

定理4.13:协方差的性质

  在存在的前提下,我们有:
(1)$\text{cov}(X,X)=\mathbb{D}[X]$
(2)$\text{cov}(X,Y)=\text{cov}(Y,X)$
(3)$\text{cov}(aX+b,cY+d)=ac\cdot \text{cov}(X,Y)$
(4)$\text{cov}(X_1+X_2,Y)=\text{cov}(X_1,Y)+\text{cov}(X_2,Y)$
(5)$\mathbb{D}[X+ Y]=\mathbb{D}[X]+\mathbb{D}[Y]+2\text{cov}(X,Y)$
(6)$\text{cov}^2(X,Y)\leq \mathbb{D}[X]\mathbb{D}[Y]$

定义4.11:相关系数

  设两个随机变量$X,Y$,$\mathbb{D}[X],\mathbb{D}[Y]$存在且均为正数,则称:

$$ \frac{\text{cov}(X,Y)}{\sqrt{\mathbb{D}[X]\mathbb{D}[Y]}} $$

为$X,Y$的相关系数,记为$\rho$或$\rho_{XY}$。显然地,由定理4.13(6)知,$|\rho|\leq 1$。

定理4.14:

  在存在的前提下,$|\rho|=1$的充要条件是存在数$a,b$,使得

$$ P(Y=aX+b)=1 $$

定理4.15:

  在存在的前提下,有:

$$ \min\{\mathbb{E}[Y-(aX+b)^2] \}=\mathbb{D}[Y](1-\rho^2) $$

  由定理4.14与定理4.15可知,$\rho$事实上刻画的是$X,Y$的线性相关性。通常当$|\rho|$较大时,称$X,Y$强相关;较小时称为弱相关;当$\rho=0$时称$X,Y$不相关;当$|\rho|=1$时称$X,Y$为线性关系

定理4.16:相关性与独立性

  相互独立一定不相关;不相关不一定相互独立。

6、$n$维随机向量

6.1:$n$维随机向量

定义4.12:$n$维随机向量的联合分布函数

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,称$n$元函数:

$$ F(x_1,\cdots,x_n)=P(X_1\leq x_1,\cdots,X_n\leq x_n) $$

为$\boldsymbol{\xi}$的联合分布函数
  类似于定义4.3与4.4,我们可定义$n$维离散型随机向量与连续型随机向量。

定义4.13:$n$维离散型随机向量

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,若$\boldsymbol{\xi}$所有取值个数是可数的,则称$\boldsymbol{\xi}$是离散型的

定义4.14:$n$维连续型随机向量

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,若存在非负可积函数$p(x_1,\cdots,x_n)$满足:对任意$a_i<b_i,i=1,\cdots,n$,有:

$$ P(a_1<X_1<b_1,\cdots,a_n<X_n<b_n)=\int_{a_1}^{b_1}\cdots\int_{a_n}^{b_n} p(x_1,\cdots,x_n)\text dx_1\cdots \text dx_n $$

则称$\boldsymbol{\xi}$是连续型的。$p(x_,,\cdots,x_n)$称为$\boldsymbol{\xi}$的联合概率密度函数。可以证明,对于$\mathbb{R}^n$中的Borel集$A$,有:

$$ P((X_1,\cdots,X_n)\in A)=\int\cdots\int_A p(x_1,\cdots,x_n)\text dx_1\cdots \text dx_n $$

定义4.15:边缘分布

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,设$1\leq i_1<\cdots<i_k\leq n,1\leq k<n$,则随机向量$(X_{i_1},\cdots,X_{i_k})$的联合分布函数称为$\boldsymbol{\xi}$的一个边缘分布

定义4.16:随机变量的独立性

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,若对任意$a_i<b_i,i=1,\cdots,n$,有:

$$ P(a_1<X_1<b_1,\cdots,a_n<X_n<b_n)=\prod_{i=1}^n P(a_i<X_i<b_i) $$

则称这$n$个随机变量$X_1,\cdots,X_n$是独立的。

6.2:$n$维随机向量的数字特征

  下设随机变量$X_1,\cdots,X_n$的数学期望与方差均存在。

定义4.17:$n$维随机向量的数学期望

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,称$n\times 1$维向量:

$$ \left(\mathbb{E}[X_1],\cdots,\mathbb{E}[X_n] \right)^\top $$

为$\boldsymbol{\xi}$的数学期望均值向量

定义4.18:协方差矩阵与相关矩阵

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,记:

$$ \sigma_{ij}=\text{cov}(X_i,X_j),\ \rho_{ij}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}} $$

则我们称矩阵$(\sigma_{ij})_{n\times n},(\rho_{ij})_{n\times n}$分别为$\boldsymbol{\xi}$的协方差矩阵相关矩阵,分别记为:$\boldsymbol{\Sigma},\boldsymbol{R}$。
  对于$n$维随机向量的函数与多个函数,参考二维情况。这里就不展开了。本节最后我们介绍一个很重要的例子。

6.3:$n$维正态分布

定义4.19:$n$维正态分布

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,若$\boldsymbol{\xi}$的联合概率密度函数为:

$$ p(\boldsymbol{x})=\frac{1}{(2\pi)^{n/2}\sqrt{\det(\boldsymbol{\Sigma})}}\exp\left[-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}) \right] $$

其中:$\boldsymbol{x}=(x_1,\cdots,x_n)^\top,\boldsymbol{\mu}=(\mu_1,\cdots,\mu_n)^\top$,$\boldsymbol{\Sigma}$为一正定阵,则称$\boldsymbol{\xi}$服从$n$维正态分布。可以证明:$\boldsymbol{\mu}$是$\boldsymbol{\xi}$的期望向量,$\boldsymbol{\Sigma}$是$\boldsymbol{\xi}$的协方差矩阵。我们此时记$\boldsymbol{\xi}\sim N(\boldsymbol{\mu},\boldsymbol{\Sigma})$。

定理4.17:正态分布的线性变换

  设有$n$维随机向量$\boldsymbol{\xi}=(X_1,\cdots,X_n)^\top$,$m$维随机向量$\boldsymbol{\zeta}=(Y_1,\cdots,Y_m)^\top$,现有一矩阵$\boldsymbol{A}\in\mathbb{R}^{m\times n},1\leq m\leq n$,其中$\text{rank}(\boldsymbol{A})=m$,也即$\boldsymbol{A}$是行满秩的。若$\boldsymbol{\xi}\sim N(\boldsymbol{\mu},\boldsymbol{\Sigma})$且$\boldsymbol{\zeta}=\boldsymbol{A\xi}$,则:$\boldsymbol{\zeta}\sim N(\boldsymbol{A\mu},\boldsymbol{A\Sigma A}^\top)$。

7、条件分布与条件期望

定义4.20:条件分布函数

  设对任意$\epsilon>0$,$P(y-\epsilon<Y\leq y+\epsilon)>0$,若极限:

$$ \lim_{\epsilon\to 0}P(X\leq x|y-\epsilon<Y\leq y+\epsilon) $$

存在,则称此极限为在$Y=y$的条件下$X$的条件分布函数,记为:$P(X\leq x|Y=u=y)$或$F_{X|Y}(x|y)$。
  我们接下来详细讨论一下条件分布函数的具体形式。

7.1:离散型情况

定义4.21:离散型条件概率分布律

  设有离散型二维随机向量$(X,Y)$,其联合概率表为$p_{ij}=P(X=x_i,Y=y_j)$,则在$Y=y_j$的条件下$X$的条件概率分布律为:

$$ \begin{align}p_{X|Y}(x|y)=P(X=x_i|Y=y_j)&=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}\\ &=\frac{p_{ij}}{\sum_k p_{kj}} \end{align} $$

7.2:连续型情况

定义4.22:连续型条件分布函数

  设有连续型二维随机向量$(X,Y)$,其联合概率密度函数为$p(x,y)$,对于$Y$的边缘概率密度函数为$p_Y(y)$,设$p(x,y),p_Y(y)$连续,则由定义4.20知在条件$Y=y$下$X$的分布为:

$$ F_{X|Y}(x|y)=\int_{-\infty}^x \frac{p(u,y)}{p_Y(y)}\text du $$

同时,我们称$\frac{p(u,y)}{p_Y(y)}$为条件$Y=y$下$X$的概率密度函数,同样记为$p_{X|Y}(x|y)$。

7.3:条件期望

定义4.23:条件期望

  设在$Y=y$条件下$X$的条件分布函数存在,设$X$的近似为$X^*$(见定义3.2),若级数:

$$ \sum_{k=-\infty}^{+\infty} k\epsilon P(X^*=k\epsilon|Y=y) $$

绝对收敛(即$\mathbb{E}[X^*|Y=y]$存在),且$\lim_{\epsilon\to0}\mathbb{E}[X^*|Y=y]$存在,则该极限值为在$Y=y$条件下$X$的条件期望
  具体地,在离散型情况下,$\mathbb{E}[X|Y=y]=\sum_x xp_{X|Y}(x|y)$,在连续型情况下,$\mathbb{E}[X|Y=y]=\int_{-\infty}^{+\infty} xp_{X|Y}(x|y)\text dx$。
  值得注意的是,期望$\mathbb{E}[X]$是一个数;而条件期望$\mathbb{E}[X|Y=y]$是一个关于$y$的函数。

定理4.18:全期望公式

  设有二维随机向量$(X,Y)$,边缘分布$p_Y(y)>0$且$X,Y$所有可能的取值个数可数。在存在的前提下,有:

$$ \begin{align}\mathbb{E}[X]&=\sum_{i}\mathbb{E}[X|Y=y_i]P(Y=y_i)\\ &=\mathbb{E}[\mathbb{E}[X|Y]] \end{align} $$

定理4.19:条件期望的性质

(1)若$X,Y$独立,则:$\mathbb E[X|Y]=\mathbb E [X]$。
(2)$\mathbb E[\sum_{i=1}^n a_i X_i+b|Y]=\sum_{i=1}^n a_i\mathbb E[X_i|Y]+b$。
(3)$\mathbb E[h(X,Y)|Y=y]=\mathbb E[h(X,y)|Y=y]$。

如果觉得我的文章对你有用,请随意赞赏