前言
本系列是科大25年秋课程《人工智能的数理科学基础》同步笔记。本文为第一章线性代数、微积分与优化的第一部分:向量微积分与矩阵分解相关内容。
系列文章
0、符号
之前本站已经介绍了矩阵微分等内容:
在本系列中,相关符号将与课件内容一致,我们再总结一下:
- 实向量变元:$\boldsymbol{x}=\left[x_1,\cdots,x_m\right]^\top\in\mathbb{R}^m$
 - 实矩阵变元:$\boldsymbol{X}=\left[\boldsymbol{x}_1,\cdots,\boldsymbol{x}_n\right]\in\mathbb{R}^{m\times n}$
 - 一阶连续可微变元为向量的标量(数量值)函数:$f(\boldsymbol{x})\in C^1(\mathbb R^n,\mathbb{R})$,记为 $f(\boldsymbol{x})$
 一阶连续可微变元为向量的向量(向量值)函数:$\boldsymbol{g}(\boldsymbol{x})\in C^1(\mathbb R^n,\mathbb{R}^n)$,记为 $\boldsymbol{g}(\boldsymbol{x})$
$\boldsymbol{g}(\boldsymbol x)$也可以写为$\vec{\boldsymbol g}(\vec x)$,事实上即是标量函数排列为向量的形式:
$$ \boldsymbol g(\boldsymbol x)= \begin{bmatrix} g_1(\boldsymbol{X}), \cdots, g_n(\boldsymbol{X}) \end{bmatrix} $$
在本系列中,向量默认为行向量。
1、向量微积分
1.1:梯度、散度与旋度
设有微分(哈密尔顿)算子:$\nabla=(\partial/\partial x_1,\cdots,\partial/\partial x_n)$。则我们记$f$在$(x_1,\cdots,x_n)$处的梯度向量 (gradient, grad) 为:
$$ \nabla f=(\frac{\partial}{\partial x_1},\cdots,\frac{\partial}{\partial x_n})f=(\frac{\partial f}{\partial x_1},\cdots,\frac{\partial f}{\partial x_n})\in \mathbb R^n $$
进一步我们记$f$在此处关于向量$\boldsymbol v$的方向导数为:$\nabla_{\boldsymbol v}f=\boldsymbol v\cdot \nabla f$,也即:
$$ \nabla _{\boldsymbol v}f=\lim_{t\to 0}\frac{f(\boldsymbol x+t\boldsymbol u)-f(\boldsymbol x)}{t}\in\mathbb R $$
接下来我们考虑向量值函数。$\boldsymbol g$在$(x_1,\cdots,x_n)$处的散度 (divergence, div) 记作
$$ \nabla \cdot \vec{g}=\left(\frac{\partial}{\partial x_{1}}, \cdots, \frac{\partial}{\partial x_{n}}\right) \cdot \vec{g}=\frac{\partial g_{1}}{\partial x_{1}}+\cdots+\frac{\partial g_{n}}{\partial x_{n}}\in \mathbb R $$
也即散度是微分算子与函数的内积,为一个标量。
当$n=3$时,定义函数$\boldsymbol g$在$(x_{1}, x_{2}, x_{3})$处的旋度 (curl)为:
$$ \begin{aligned} \nabla \times\boldsymbol g& =\left(\frac{\partial}{\partial x_{1}}, \cdots, \frac{\partial}{\partial x_{n}}\right) \times \boldsymbol g=\left|\begin{array}{ccc} \vec{e}_{1} & \vec{e}_{2} & \vec{e}_{3} \\ \frac{\partial}{\partial x_{1}} & \frac{\partial}{\partial x_{2}} & \frac{\partial}{\partial x_{3}} \\ g_{1} & g_{2} & g_{3} \end{array}\right| \\ & =\left(\frac{\partial g_{3}}{\partial x_{2}}-\frac{\partial g_{2}}{\partial x_{3}}, \frac{\partial g_{1}}{\partial x_{3}}-\frac{\partial g_{3}}{\partial x_{1}}, \frac{\partial g_{2}}{\partial x_{1}}-\frac{\partial g_{1}}{\partial x_{2}}\right) \end{aligned} $$
我们可以推导出如下结论:
(1) 如果$\nabla \times \boldsymbol g=\boldsymbol 0$,则存在$f$使得$\boldsymbol g=\nabla f$。
(2) 如果$\nabla \cdot \boldsymbol h=0$,则存在$\boldsymbol g$使得$\boldsymbol h=\nabla \times \boldsymbol g$。
而进一步我们可以得出Helmholtz分解:对于三阶向量函数$\boldsymbol f$,可以分解为无旋与无散的两部分:
$$ \boldsymbol f=\boldsymbol g+\boldsymbol h,\; where\quad \boldsymbol g=-\nabla \Phi,\; \nabla\cdot \boldsymbol h=0 $$
1.2:雅可比矩阵
对于一阶连续可微向量值函数:$\boldsymbol f\in C^1(\mathbb R^n,\mathbb R^m)$,记其在$\boldsymbol x\in\mathbb R^n$处的雅可比矩阵(Jacobian matrix)为:
$$ \boldsymbol J_{\boldsymbol f}(\boldsymbol x)=\frac{\partial \boldsymbol f}{\partial \boldsymbol x}={\left[\begin{array}{ccc} \frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}} & \cdots & \frac{\partial f_{m}}{\partial x_{n}} \end{array}\right]}_{m\times n} $$
容易看出雅可比矩阵可以表示为梯度向量的排列:
$$ \boldsymbol J_{\boldsymbol f}(\boldsymbol x)=\begin{bmatrix} \nabla f_1 , \\ \cdots,\\ \nabla f_m \end{bmatrix} $$
从而可以认为$\boldsymbol J$与梯度向量$\text d \boldsymbol f(\boldsymbol x)$一样表征的是$\boldsymbol x$处的变化速率。
1.3:向量值函数的微分运算法则
(1) $\nabla(f g) =f \nabla g+g \nabla f $
(2) $\nabla(\boldsymbol f \cdot \boldsymbol g) =\boldsymbol J_{\boldsymbol g}^\top \boldsymbol f+\boldsymbol J_{\boldsymbol f}^\top \boldsymbol g$
(3) $\boldsymbol J_{f\boldsymbol g}=f\boldsymbol J_{\boldsymbol g}+\boldsymbol g(\nabla f)^\top$
(4) $\nabla \cdot(f\boldsymbol g)=\nabla f \cdot \boldsymbol g+f \nabla \cdot \boldsymbol g$
(5) 设:$\boldsymbol f\in C^1(\mathbb R^n,\mathbb R^m)$,$\boldsymbol f\in C^1(\mathbb R^m,\mathbb R^p)$,则:
$$ \boldsymbol J_{\boldsymbol g\circ \boldsymbol f}(\boldsymbol x)=\boldsymbol J_{\boldsymbol g}(\boldsymbol f(\boldsymbol x))\cdot \boldsymbol J_{\boldsymbol f}(\boldsymbol x) $$
我们下面给出2-5的证明:
(proof. 2)