一、矩阵代数基础
1、使用矩阵初等变换刻画可逆性
设 $n$阶方阵 $\boldsymbol{A}$,自变量向量 $\boldsymbol{x}=[x_1,\cdots,x_n]^\top$,零向量 $\boldsymbol{0}=[0,\cdots,0]^\top$,则以下命题等价:
(1)$\boldsymbol{A}$可逆;
(2)$\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}$只有零解;
(3)$\boldsymbol{A}$与单位阵 $\boldsymbol{I}$行相抵;
(4)$\boldsymbol{A}$ 可表示为有限个初等矩阵的乘积。
证明:
我们按照 $(1)\rightarrow (2)\rightarrow (3) \rightarrow (4)\rightarrow (1)$来证明。
$(1)\rightarrow (2)$:$\boldsymbol{A}^{-1}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}=\boldsymbol{A}^{-1}\boldsymbol{0}$
$(2)\rightarrow (3)$:设矩阵 $\boldsymbol{A}$经过若干次初等行变换得到的行简化阶梯型矩阵为 $\boldsymbol{B}$,那么由(1)且 $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}$与 $\boldsymbol{B}\boldsymbol{x}=\boldsymbol{0}$同解,则 $\boldsymbol{B}\boldsymbol{x}=\boldsymbol{0}$也只有零解。那么说明 $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}$受约束变元数为 $n$也即 $\boldsymbol{B}$的最后一行不是全零行,则 $\boldsymbol{B}$的竖直方向总阶梯数为 $n$。又 $\boldsymbol{B}$为行简化阶梯型矩阵,即水平方向总阶梯数为 $n$且水平方向每次阶梯数大于竖直方向。
综合得到:$\boldsymbol{B}$的水平方向每次阶梯数为 1,即每行第一个非零元 1 正好在主对角线上,即 $\boldsymbol{B}=\boldsymbol{I}$。
$(3)\rightarrow (4),(4)\rightarrow (1)$:显然。
2、矩阵的行列式
1.矩阵相乘的行列式等于其行列式的乘积:$\det{\boldsymbol{A}\boldsymbol{B}}=\det{\boldsymbol{A}}\det{\boldsymbol{B}}$
证明:
我们考虑这里定义的三种初等行变换矩阵:$\boldsymbol{P}_{ij},\boldsymbol{Q}_{ij}(a),\boldsymbol{P}_i(b)$,同时将行初等矩阵记为 $\boldsymbol{I}_r$。由行列式初等变换的性质,则有:
$$ \det\boldsymbol{P}_{ij}=-1,\det\boldsymbol{Q}_{ij}(a)=1,\det\boldsymbol{P}_i(b)=b $$
同时对于矩阵 $\boldsymbol{A}$,有:
$$ \det{\boldsymbol{P}_{ij}\boldsymbol{A}}=-\det\boldsymbol{A},\det{\boldsymbol{Q}_{ij}\boldsymbol{A}}=\det\boldsymbol{A},\det{\boldsymbol{P}_i(b)\boldsymbol{A}}=b\det\boldsymbol{A} $$
即:$\det{\boldsymbol{I}_r\boldsymbol{A}}=\det\boldsymbol{I}_r\det\boldsymbol{A}$
那么对于原命题,若 $\boldsymbol{A}$不可逆,显然成立。若可逆,则存在初等矩阵 $\boldsymbol{I}_{r1},\cdots,\boldsymbol{I}_{rs}$,使得 $\boldsymbol{A}=\boldsymbol{I}_{rs}\cdots\boldsymbol{I}_{r1}\boldsymbol{I}$,则:
$$ \det\boldsymbol{A}=\det{\boldsymbol{I_{rs}}\cdots\boldsymbol{I}_{r1}\boldsymbol{I}}=\det\boldsymbol{I}_{rs}\cdots\det\boldsymbol{I}_{r1} $$
所以:
$$ \det{\boldsymbol{A}\boldsymbol{B}}=\det{\boldsymbol{I_{rs}}\cdots\boldsymbol{I}_{r1}\boldsymbol{I}\boldsymbol{B}}=\det\boldsymbol{I}_{rs}\cdots\det\boldsymbol{I}_{r1}\det\boldsymbol{B}=\det\boldsymbol{A}\cdot\det\boldsymbol{B} $$
2.考虑分块矩阵 $\boldsymbol{A}_{m\times m},\boldsymbol{B}_{m\times n},\boldsymbol{C}_{n\times m},\boldsymbol{D}_{n\times n}$,则:
$$ \begin{align}&\boldsymbol{A}非奇异\Leftrightarrow \det{\begin{bmatrix}\boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} &\boldsymbol{D} \end{bmatrix}}=\det{\boldsymbol{A}}\det{(\boldsymbol{D}-\boldsymbol{C}\boldsymbol{A}^{-1}\boldsymbol{B})}\tag{1} \\ &\boldsymbol{D}非奇异\Leftrightarrow \det{ \begin{bmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} &\boldsymbol{D} \end{bmatrix}}=\det{\boldsymbol{D}}\det{(\boldsymbol{A}-\boldsymbol{B}\boldsymbol{D}^{-1}\boldsymbol{C})}\tag{2} \end{align} $$
证明:
对于式(1):有:
$$ \det{\begin{bmatrix}\boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} &\boldsymbol{D} \end{bmatrix}}=\det{( \begin{bmatrix} \boldsymbol{A} & \boldsymbol{O} \\ \boldsymbol{C} &\boldsymbol{D}-\boldsymbol{C}\boldsymbol{A}^{-1}\boldsymbol{B} \end{bmatrix} \begin{bmatrix} \boldsymbol{I} & \boldsymbol{A}^{-1}\boldsymbol{B} \\ \boldsymbol{O} &\boldsymbol{I} \end{bmatrix} )}=\det{\boldsymbol{A}}\det{(\boldsymbol{D}-\boldsymbol{C}\boldsymbol{A}^{-1}\boldsymbol{B})} $$
3.行列式的值等于所有特征值之积
设有矩阵 $\boldsymbol{A}_{n\times n}$,其 $n$个特征值为 $\lambda_1,\cdots,\lambda_n$,则 $\det{(\boldsymbol{A})}=\prod\limits_{i=1}^n \lambda_i$
证明:
设矩阵的特征值多项式为 $\phi(\lambda)=\det{(\lambda \boldsymbol{I}-\boldsymbol{A})}$,我们知道,它可以写成 $\phi(\lambda)=\prod\limits_{i=1}^n (\lambda-\lambda_i)$,其中 $\lambda_i$为 $\boldsymbol{A}$的特征值。取 $\lambda=0$,有 $\det{(-\boldsymbol{A})}=\prod\limits_{i=1}^n (-\lambda_i)$,即 $(-1)^n\det(\boldsymbol{A})=(-1)^n \prod\limits_{i=1}^n \lambda_i$,从而命题得证。
3、特征值与正定性
设有正定阵 $\boldsymbol{A}$,其特征值均为正实数。
证明:
由已知,则 $\boldsymbol{A}$的二次型 $\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}>0$对所有非零列向量均成立。若 $\lambda$是 $\boldsymbol{A}$的特征值,即有 $\boldsymbol{A}\boldsymbol{x}=\lambda\boldsymbol{x}$。则:$\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}^H\lambda\boldsymbol{x}=||\boldsymbol{x}||^2>0$。所以:
$$ \lambda=\frac{\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}}{||\boldsymbol{x}||^2} $$
显然 $\lambda$是两个正实数的比,故而其也是正实数。
4、正定性的刻画
对于设 Hermitian 矩阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}$,则以下命题等价:
(1)$\boldsymbol{A}$正定,即 $\forall\boldsymbol{x}\in\mathbb{C}^n,\boldsymbol{x}\neq\boldsymbol{0},\boldsymbol{x}^H\boldsymbol{Ax}> 0$
(2)Hurwitz:矩阵的所有 $k$阶顺序主子式($1\leq k\leq n$)均大于零
(3)存在一个非奇异的$n\times n$ 矩阵$\boldsymbol{Q}$ 使得$\boldsymbol{A}=\boldsymbol{Q}^H\boldsymbol{Q}$
(4)存在一个非奇异的$n\times n$ 矩阵,使得 Hermitian 矩阵$\boldsymbol{P}^H\boldsymbol{AP}$ 是正定的
证明:
我们首先来证明一个很重要的引理:$\boldsymbol{A}$正定$\Leftrightarrow \boldsymbol{A}\simeq\boldsymbol{I}$。
$\Rightarrow$:
设$\boldsymbol{A}$正定,则其特征值$\lambda_1,\cdots,\lambda_n$均为正实数,取矩阵$\boldsymbol{D}=\text{diag}(\sqrt{\lambda_1},\cdots,\sqrt{\lambda_n})$,则显然$\boldsymbol{A}=\boldsymbol{D}^H\boldsymbol{ID}$,所以$\boldsymbol{A}\simeq\boldsymbol{D}$。
$\Leftarrow$:
设$\boldsymbol{A}\simeq\boldsymbol{I}$,即存在非奇异方阵$\boldsymbol{D}$使得$\boldsymbol{A}=\boldsymbol{D}^H\boldsymbol{ID}=\boldsymbol{D}^H\boldsymbol{D}$,所以其二次型为:
$$ \boldsymbol{x}^H\boldsymbol{Ax}=\boldsymbol{x}^H\boldsymbol{D}^H\boldsymbol{Dx}=||\boldsymbol{Dx}||^2_2 $$
注意到 $\boldsymbol{x}\neq\boldsymbol{0}$,所以 $||\boldsymbol{Dx}||^2_2>0$从而 $\boldsymbol{A}$正定,引理证毕。
显然引理就是原命题的(3),同时因为 $\boldsymbol{A}$是 Hermitian 矩阵,所以其可酉对角化:$\boldsymbol{U}^{-1}\boldsymbol{AU}=\text{diag}(\lambda_1,\cdots,\lambda_n)$,则(4)易证,我们接下来看(2)。
(1)$\Rightarrow$(2):
记$\boldsymbol{A}$ 的$k$ 阶顺序主子式为$\boldsymbol{A}_k$,其对应的矩阵为$\boldsymbol{\Delta}_k$。设有向量$\boldsymbol{x}'=(x_1,\cdots,x_k)^\top_{k\times 1},\boldsymbol{x}=[\boldsymbol{x}'_{k\times 1},\boldsymbol{0}_{(n-k)\times 1}]^\top_{n\times 1}$,我们有:
$$ \boldsymbol{x}^\top\boldsymbol{Ax}= \begin{bmatrix} \boldsymbol{x}'^\top & \boldsymbol{0}_{1\times (n-k)} \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{\Delta}_k & \boldsymbol{B}\\ \boldsymbol{C}&\boldsymbol{D} \end{bmatrix} \begin{bmatrix} \boldsymbol{x}'\\ \boldsymbol{0}_{(n-k)\times 1} \end{bmatrix}=\boldsymbol{x}'^\top\boldsymbol{\Delta}_k\boldsymbol{x}' $$
由于 $\boldsymbol{A}$正定,所以 $\boldsymbol{x}^\top\boldsymbol{Ax}=\boldsymbol{x}'^\top\boldsymbol{\Delta}_k\boldsymbol{x}'>0$,因此 $\boldsymbol{\Delta}_k$也是正定的。由定理1.6.2.1(5),则立刻有$\det{(\boldsymbol{\Delta}_k)}=\boldsymbol{A}_k>0$得证。
(2)$\Rightarrow$(1):
对矩阵阶数 $n$做数学归纳法:当 $n=1$时,$\boldsymbol{A}=\boldsymbol{\Delta_1}=[a_{11}]$,显然命题是成立的;设当 $n=k-1$时命题成立,现考察 $n=k$的情况。
对于 $\boldsymbol{A}_{k\times k}$,写成分块的形式:$\boldsymbol{A}=\begin{bmatrix}\boldsymbol{\Delta}_{k-1} & \boldsymbol{\alpha}^H\\ \boldsymbol{\alpha} & a_{kk}\end{bmatrix}$,由于 $\boldsymbol{A}$的前 $k-1$阶顺序主子式即为 $\boldsymbol{\Delta}_{k-1}$的所有顺序主子式,由归纳假设知 $\boldsymbol{\Delta}_{k-1}$正定,由引理知存在非奇异的 $k-1$阶方阵 $\boldsymbol{C}_{(k-1)\times (k-1)}$使得:
$$ \boldsymbol{C}^H\boldsymbol{\Delta}_{k-1}\boldsymbol{C}=\boldsymbol{I}_{k-1} $$
同时注意到:
$$ \boldsymbol{A}= \begin{bmatrix} \boldsymbol{I}_{k-1} & \boldsymbol{0}\\ \boldsymbol{\alpha}\boldsymbol{\Delta}_{k-1}^{-1} & 1 \end{bmatrix} \begin{bmatrix} \boldsymbol{\Delta}_{k-1} & \boldsymbol{0}\\ \boldsymbol{0} & a_{kk}-\boldsymbol{\alpha\Delta}_{k-1}^{-1}\boldsymbol{\alpha}^H \end{bmatrix} \begin{bmatrix} \boldsymbol{I}_{k-1} & \boldsymbol{\Delta}_{k-1}^{-1}\boldsymbol{\alpha}^H\\ \boldsymbol{0}&1 \end{bmatrix}\tag{1} $$
由于 $\boldsymbol{\Delta}_{k-1}$是 Hermitian 的,其逆矩阵 $\boldsymbol{\Delta}^{-1}_{k-1}$同样是 Hermitian 的,从而:
$$ \boldsymbol{A}\simeq \begin{bmatrix} \boldsymbol{\Delta}_{k-1} & \boldsymbol{0}\\ \boldsymbol{0} & a_{kk}-\boldsymbol{\alpha}\boldsymbol{\Delta}^{-1}_{k-1}\boldsymbol{\alpha}^H \end{bmatrix} $$
不妨记 $b=a_{kk}-\boldsymbol{\alpha}\boldsymbol{\Delta}^{-1}_{k-1}\boldsymbol{\alpha}^H$,对(1)式等式两边同时取行列式,则:
$$ \det(\boldsymbol{A})=\det\left(\begin{bmatrix}\boldsymbol{\Delta_{k-1}} &\boldsymbol{0}\\ \boldsymbol{0} & b \end{bmatrix}\right)=\boldsymbol{A}_{k-1}\cdot b $$
由假设知 $\det(A)=\boldsymbol{A}_{k}>0$且 $\boldsymbol{\Delta}_{k-1}$正定,所以 $b>0$。所以矩阵 $\boldsymbol{P}=\begin{bmatrix}\boldsymbol{I}_{k-1}&\boldsymbol{0}\\ \boldsymbol{0}&b \end{bmatrix}$是正定的,注意到:
$$ \boldsymbol{P}= \begin{bmatrix} \boldsymbol{C} & \boldsymbol{0}\\ \boldsymbol{0} & 1 \end{bmatrix}^H \begin{bmatrix} \boldsymbol{\Delta}_{k-1} & \boldsymbol{0}\\ \boldsymbol{0} & b \end{bmatrix} \begin{bmatrix} \boldsymbol{C} & \boldsymbol{0}\\ \boldsymbol{0} & 1 \end{bmatrix} $$
从而:
$$ \boldsymbol{A}\simeq\begin{bmatrix} \boldsymbol{\Delta}_{k-1} & \boldsymbol{0}\\ \boldsymbol{0} & b \end{bmatrix}\simeq\boldsymbol{P} $$
由于 $\boldsymbol{P}$是正定的且合同矩阵二次型相同易知 $\boldsymbol{A}$正定,证毕。
5、矩阵的迹
1.$\boldsymbol{A}_{m\times n},\boldsymbol{B}_{n\times m}$,则 $tr(\boldsymbol{AB})=tr(\boldsymbol{BA})$
证明:
$$ tr(\boldsymbol{AB})=\sum\limits_{i=1}^m (\sum\limits_{j=1}^n a_{ij}\cdot b_{ji})=\sum\limits_{j=1}^n (\sum\limits_{i=1}^m b_{ji}\cdot a_{ij})=tr(\boldsymbol{BA}) $$
2.矩阵的迹为矩阵所有特征值之和:$tr(\boldsymbol{A})=\sum\limits_{i=1}^n \lambda_i$
证明:
我们首先来证明一个引理:(Vieta)设有一元 $n$次方程:$P(x)=a_n x^n+a_{n-1}x^{n-1}+\cdots+a_1 x+a_0,\ a_i\in\mathbb{R},\ a_n\neq 0$,则其在复数域内必有 $n$个根,记为 $x_1,\cdots,x_n$,所以 $P(x)$可写为:$P(x)=a_n \prod\limits_{i=1}^n (x-x_i)$,所以有:
$$ a_n x^n+a_{n-1}x^{n-1}+\cdots+a_1 x+a_0=a_n(x-x_1)\cdots (x-x_n) $$
而将等式右边展开则有:
$$ a_n \prod\limits_{i=1}^n (x-x_i)=a_n x^n-a_n(\sum\limits_{i=1}^n x_i)x^{n-1}+a_n (\sum\limits_{1\leq i\leq j\leq n} x_ix_j)x^{n-2}+\cdots+(-1)^n a_n\prod\limits_{i=1}^n x_i $$
那么比对上式与原式的各向系数,则有如下结论:
$$ \begin{align} \sum\limits_{i=1}^n x_i=-\frac{a_{n-1}}{a_n}\tag{1}\\ \sum\limits_{1\leq i\leq j\leq n} x_ix_j=\frac{a_{n-2}}{a_n}\tag{2}\\ \prod\limits_{i=1}^n=(-1)^n \frac{a_0}{a_n}\tag{3} \end{align} $$
现在我们可以来证明关于矩阵乘积迹的等式了。根据特征值的第二定义,方程$\phi(\lambda)=\det{(\lambda\boldsymbol{I}-\boldsymbol{A})}$在复数域内的 $n$个根称为矩阵 $\boldsymbol{A}$的特征值。我们将 $\phi(\lambda)$写做:
$$ \phi(\lambda)=b_0+\sum\limits_{i=1}^n b_i\lambda^i $$
根据 Vieta 定理结论(1),有 $\sum\limits_{i=1}^n \lambda_i=-\frac{b_{n-1}}{b_n}$,而显然 $b_n=1$,那么问题变成了求解特征多项式中 $\lambda^{n-1}$的系数 $b_{n-1}$了。
我们观察特征多项式:
$$ \phi(\lambda)=\det{(\lambda\boldsymbol{I}-\boldsymbol{A})}= \begin{vmatrix} \lambda-a_{11}& -a_{12} & \cdots & -a_{1n} \\ -a_{21}& \lambda-a_{22}& \cdots&-a_{2n}\\ \vdots & \vdots & \cdots & \vdots \\ -a_{n1}& -a_{n2} &\cdots & \lambda-a_{nn} \end{vmatrix} $$
按第一行展开:$\phi(\lambda)=(\lambda-a_{11})A_{11}-(\sum\limits_{i=2}^{n}a_{1i}A_{1i} )$,由于 $\lambda$只存在与对角线上,所以只有项 $(\lambda-a_{11})A_{11}$存在 $\lambda^{n-1}$次项。递归地,只有 $(\lambda-a_{11})\cdots(\lambda-a_{nn})$中存在 $\lambda^{n-1}$次项,且其系数为 $b_{n-1}=-\sum\limits_{i=1}^n a_{ii}$。综合上述分析,则 $\sum\limits_{i=1}^n \lambda_i=\sum\limits_{i=1}^n a_{ii}$。
3.对 $k\in\mathbb{R},\ k\geq 0$,有:$tr(\boldsymbol{A}^k)=\sum\limits_{i=1}^n \lambda_i^k$
证明:
我们首先证明一个引理:若$\lambda$是 $\boldsymbol{A}$的特征值,则 $\lambda^k$是 $\boldsymbol{A}^k$的特征值。
设 $\lambda$对应的特征向量为 $\boldsymbol{\alpha}$,即 $\boldsymbol{A}\boldsymbol{\alpha}=\lambda\boldsymbol{\alpha}$,那么
$$ \boldsymbol{A}^k\boldsymbol{\alpha}=\boldsymbol{A}^{k-1}\boldsymbol{A}\boldsymbol{\alpha}=\lambda\boldsymbol{A}^{k-1}\boldsymbol{\alpha}=\lambda^k \boldsymbol{\alpha} $$
所以,若 $\lambda_1,\cdots,\lambda_n$是 $\boldsymbol{A}$的特征值,则 $\boldsymbol{A}^k$的特征值为:$\lambda_1^k,\cdots,\lambda_n^k$,那么显然有:$tr(\boldsymbol{A}^k)=\sum\limits_{i=1}^n \lambda_i^k$。
6、矩阵的秩
1.Steinitz 替换定理
设一线性无关的向量组 $\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s\}$可以由 $\boldsymbol{T}=\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t\}$线性表出,则 $s\leq t$,且用 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s$替换 $\boldsymbol{T}$中的某 $s$个向量(不妨设前 $s$个)后,$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$与 $\boldsymbol{T}$等价。
证明:
注意有两个结论。我们对 $s$用归纳法。
(a)证明 $s=1$时命题成立
若 $s=1$,显然有 $s\leq t$。由 $\boldsymbol{a}_1$可由 $\boldsymbol{T}$线性表出,即存在数 $\lambda_1,\cdots,\lambda_t$使得:$\boldsymbol{a}_1=\sum_{i=1}^t \lambda_i \boldsymbol{b}_i$。又 $\boldsymbol{S}=\{\boldsymbol{a}_1\}$是线性无关的,即 $\boldsymbol{a}_1\neq \boldsymbol{0}$,所以必然存在某个 $\lambda_i\neq 0$,不妨设 $\lambda_1\neq 0$。所以:
$$ \boldsymbol{b}_1=\frac{1}{\lambda_1}\boldsymbol{a}_1+(-\frac{\lambda_2}{\lambda_1})\boldsymbol{b}_2+\cdots+(-\frac{\lambda_t}{\lambda_1})\boldsymbol{b}_t $$
也就是 $\boldsymbol{b}_1$可以由 $\boldsymbol{a}_1,\boldsymbol{b}_2,\cdots,\boldsymbol{b}_t$线性表出。显然地,当 $2\leq k\leq t$ 时,$\boldsymbol{b}_k$ 可由$\boldsymbol{a}_1,\boldsymbol{b}_2,\cdots,\boldsymbol{b}_t$ 线性表出,所以$\boldsymbol{T}$ 可由$\boldsymbol{a}_1,\boldsymbol{b}_2,\cdots,\boldsymbol{b}_t$ 线性表出。同时反过来容易证明$\boldsymbol{a}_1,\boldsymbol{b}_2,\cdots,\boldsymbol{b}_t$可由 $\boldsymbol{T}$线性表出。
所以:当 $s=1$时,$\boldsymbol{a}_1,\boldsymbol{b}_2,\cdots,\boldsymbol{b}_t$与 $\boldsymbol{T}$ 是等价的。
(b)设命题对$s-1,s\geq 2$ 成立,证明对$s$ 也成立
我们首先来整理一下所有已知及要证明的东西。
(已知 1:假设)一线性无关的向量组 $\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s\}$可以由 $\boldsymbol{T}=\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t\}$ 线性表出。
显然地,我们可以得出如下推论:
(已知 2:假设的推论)$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1}$ 线性无关且它能由$\boldsymbol{T}$ 线性表出。
那么由已知 2,我们可以很自然地引入归纳假设:
(已知 3:归纳假设 1)$s-1\leq t$;
(已知4:归纳假设2)用$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1}$ 替换$\boldsymbol{T}$ 中的$s-1$ 个向量(不妨设前$s-1$ 个)后,$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1},\boldsymbol{b}_{s},\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$与 $\boldsymbol{T}$ 等价。
那么根据上述四个已知条件,我们需要证明以下结论:
- $s\leq t$
- 用 $\boldsymbol{S}$替换 $\boldsymbol{T}$中的某 $s$个向量(不妨设前 $s$个)后,$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$与 $\boldsymbol{T}$等价。
接下来开始我们的证明。由已知 1 与已知 4,$\boldsymbol{a}_s$可以由 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1},\boldsymbol{b}_{s},\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$线性表出。故而存在 $\lambda_1,\cdots,\lambda_t\in\boldsymbol{F}$,使得:
$$ \boldsymbol{a}_s=\lambda_1\boldsymbol{a}_1+\lambda_2\boldsymbol{a}_2+\cdots+\lambda_{s-1}\boldsymbol{a}_{s-1}+\lambda_s\boldsymbol{b}_s+\cdots+\lambda_t\boldsymbol{b}_t $$
由已知 3,若 $s-1=t$,或者说 $\lambda_s=\lambda_{s+1}=\cdots=\lambda_t=0$,那么由:
$$ \lambda_1\boldsymbol{a}_1+\cdots+\lambda_{s-1}\boldsymbol{a}_{s-1}+(-1)\boldsymbol{a}_s=0 $$
这与已知 2 中 $\boldsymbol{S}$线性无关是矛盾的,所以有 $s-1<t$即 $s\leq t$。也就是说 $\lambda_s,\cdots,\lambda_{t}$中至少有一个不是 0,不妨设 $\lambda_s\neq 0$,从而有:
$$ \boldsymbol{b}_s=(-\frac{\lambda_1}{\lambda_s})\boldsymbol{a}_1+\cdots+(-\frac{\lambda_{s-1}}{\lambda_s})\boldsymbol{a}_{s-1}+\frac{1}{\lambda_s}\boldsymbol{a}_s+(-\frac{\lambda_{s+1}}{\lambda_s})\boldsymbol{b}_{s+1}+\cdots+(-\frac{\lambda_t}{\lambda_s})\boldsymbol{b}_t $$
所以 $\boldsymbol{b}_s$可以由 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$线性表出。同时显然对于 $\boldsymbol{a}_m,\boldsymbol{b}_n,1\leq m\leq s-1,s+1\leq n\leq t$,能由$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$线性表出。所以:$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1},\boldsymbol{b}_{s},\cdots,\boldsymbol{b}_t$可以由$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$线性表出。
而反过来,显然又有$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$可以由$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1},\boldsymbol{b}_{s},\cdots,\boldsymbol{b}_t$线性表出。考虑到向量组等价的传递性,由已知 4,$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{s-1},\boldsymbol{b}_{s},\cdots,\boldsymbol{b}_t$与 $\boldsymbol{T}$是等价的,所以有 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$也与 $\boldsymbol{T}$是等价的。原命题得证。
2.极大无关组的性质
设一向量组$\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m|\boldsymbol{a}_i\in\mathbb{F}^n \}$,他的任意一个极大无关组都与 $\boldsymbol{S}$等价;且 $\boldsymbol{S}$的任意两个极大无关组包含的向量个数相同
证明:
我们先来证明第一部分。设 $\boldsymbol{S}$的一个极大无关组 $\boldsymbol{T}=\{\boldsymbol{b_1},\cdots,\boldsymbol{b}_t\}$,记向量集合 $\boldsymbol{S}'=\boldsymbol{S}-\boldsymbol{T}$。由定义我们知道,在 $\boldsymbol{S}'$中任取一个向量 $\boldsymbol{a}$,则 $\boldsymbol{a},\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t$是线性相关的,也即存在不全为零的数 $\mu,\lambda_1,\cdots,\lambda_t\in\boldsymbol{F}$,使得:
$$ \mu\boldsymbol{a}+\lambda_1\boldsymbol{b}_1+\cdots+\lambda_t\boldsymbol{b}_t=\boldsymbol{0} $$
若 $\mu=0$,则 $\lambda_1\boldsymbol{b}_1+\cdots+\lambda_t\boldsymbol{b}_t=\boldsymbol{0}$,则与 $\boldsymbol{T}$线性无关矛盾,则有 $\mu\neq 0$,从而:
$$ \boldsymbol{a}=(-\frac{\lambda_1}{\mu})\boldsymbol{b}_1+\cdots+(-\frac{\lambda_t}{\mu})\boldsymbol{b}_t $$
所以 $\boldsymbol{a}$可以由 $\boldsymbol{T}$线性表出,又由于 $\boldsymbol{a}$的任意性,$\boldsymbol{S}'$可以由 $\boldsymbol{T}$线性表出,从而 $\boldsymbol{S}$也可由 $\boldsymbol{T}$线性表出。同时,$\boldsymbol{T}$是 $\boldsymbol{S}$的一部分,所以 $\boldsymbol{S}$与 $\boldsymbol{T}$是等价的。
又设 $\boldsymbol{S}$的另一个极大无关组 $\boldsymbol{c}_1,\cdots,\boldsymbol{c}_r$,显然他是与 $\boldsymbol{S}$等价的,从而他也是与 $\boldsymbol{T}$等价的。由 Steinitz 替换定理的推论知,$r=t$。
3.矩阵 $\boldsymbol{A}_{m\times n}\in\mathbb{F}^{m\times n}$行秩与列秩相等
证明:
设矩阵 $\boldsymbol{A}$的行(向量)组为:$\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m\}$,行秩为 $r$;列(向量)组为:$\boldsymbol{T}=\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_n\}$,列秩为 $t$。
那么对于 $\boldsymbol{A}$的列组,设其一个极大无关组为 $\boldsymbol{T}'=\{\boldsymbol{b}'_1,\cdots,\boldsymbol{b}'_t\}$。我们知道,$\boldsymbol{T}$可由 $\boldsymbol{T}'$线性表出,即:
$$ \forall \boldsymbol{b}_j\in\boldsymbol{T},\ \exists \lambda_{j1},\cdots,\lambda_{jt}\in\boldsymbol{F},\ s.t\ \boldsymbol{b}_j=\lambda_{j1}\boldsymbol{b}'_1+\cdots+\lambda_{jt}\boldsymbol{b}'_t $$
如果写成矩阵形式,从而有:
$$ \boldsymbol{b}_j=[\boldsymbol{b}'_1,\cdots,\boldsymbol{b}'_t]_{m\times t} \begin{bmatrix} \lambda_{j1}\\ \lambda_{j2}\\ \vdots\\ \lambda_{jt} \end{bmatrix}_{t\times 1} $$
所以,有:
$$ \boldsymbol{A}_{m\times n}=[\boldsymbol{b}_1,\cdots,\boldsymbol{b}_n]_{m\times n}=[\boldsymbol{b}'_1,\cdots,\boldsymbol{b}'_t]_{m\times t} \begin{bmatrix} \lambda_{11} &\cdots & \lambda_{n1}\\ \lambda_{12} &\cdots & \lambda_{n2}\\ \vdots &\cdots &\vdots \\ \lambda_{1t} &\cdots & \lambda_{nt} \end{bmatrix}_{t\times n}=[\boldsymbol{b}'_1,\cdots,\boldsymbol{b}'_t]_{m\times t}\boldsymbol{\Lambda}_{t\times n} $$
为了描述方便,记列向量 $\boldsymbol{b}'_i$的第 $j$个分量为 $\boldsymbol{b}'_{ij}$,记系数矩阵$\boldsymbol{\Lambda}$的第 $i$行为$\boldsymbol{\lambda}_i$。
现在我们观察原矩阵 $\boldsymbol{A}$的第 $i$行 $\boldsymbol{a}_i$。对于其 $n$个分量有:
$$ \begin{align} a_{i1}&=\boldsymbol{b}'_{1i}\lambda_{11}+\cdots+\boldsymbol{b}'_{ti}\lambda_{1t}\\ \vdots&\\ a_{in}&=\boldsymbol{b}'_{1i}\lambda_{n1}+\cdots+\boldsymbol{b}'_{ti}\lambda_{nt}\\ \end{align} $$
那么写成向量形式则有:
$$ \boldsymbol{a}_i=\boldsymbol{b}'_{1i}\boldsymbol{\lambda}_1+\cdots+\boldsymbol{b}'_{ti}\boldsymbol{\lambda}_t $$
所以原矩阵 $\boldsymbol{A}_{m\times n}$的行组可由 $\boldsymbol{\Lambda}_{t\times n}$的行组线性表出!!所以,$\boldsymbol{A}$的行秩 $r\leq t$。同理有 $t\leq r$。综合而得 $r=t$,得证。
4.矩阵秩两种定义的等价性
- 定义 1:矩阵 $\boldsymbol{A}_{m\times n}$的秩定义为其非零子式的最高阶数;
- 定义 2:矩阵 $\boldsymbol{A}_{m\times n}$的秩定义为其行(列)组的秩。
证明:(参考:矩阵的秩的两种定义的等价性)
(a)设 $\boldsymbol{A}$非零子式的最高阶数为 $r$,下面证明其行组的极大无关组所含向量数也为 $r$。
根据已知我们知道,$\boldsymbol{A}$的一个 $r$阶子式 $\boldsymbol{B}$非零,而 $\boldsymbol{A}$的所有 $r'>r$ 阶子式均为零。不妨设子式 $\boldsymbol{B}$为:
$$ \boldsymbol{B}= \begin{bmatrix} a'_{11} & \cdots & a'_{1r} \\ \vdots & \ddots & \vdots \\ a'_{r1} & \cdots & a'_{rr} \end{bmatrix}_{r\times r} $$
我们记子式 $\boldsymbol{B}$的第 $i$行为 $\boldsymbol{b}_i=[a'_{i1},\cdots,a'_{ir}]$,而 $\boldsymbol{b}_i$所对应的原矩阵的那个行向量记为 $\boldsymbol{a}'_i$。我们接下来证明 $\boldsymbol{B}$的行组 $\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_r\}$所对应的原矩阵行组的子集 $\{\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$就是原矩阵 $\boldsymbol{A}$ 的行组的极大无关组。
首先我们来证 $\{\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$是线性无关的。由$\det{(\boldsymbol{B})}\neq 0$,若 $\boldsymbol{B}$的行组 $\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_r\}$是线性相关的,则必然存在非全为零的数 $\lambda_1,\cdots,\lambda_r$使得:$\sum_{i=1}^r \lambda_i \boldsymbol{b}_i=\boldsymbol{0}$。设 $\lambda_i\neq 0,1\leq i\leq r$,则 $\boldsymbol{b}_i=\sum_{j\neq i}(-\frac{\lambda_j}{\lambda_i})\boldsymbol{b}_j$,又考虑到行列式的初等变换,则:
$$ \det{(\boldsymbol{B})}= \begin{vmatrix} a'_{11}&\cdots & a'_{1r} \\ \vdots &\cdots & \vdots \\ a'_{(i-1)1}&\cdots & a'_{(i-1)r} \\ 0 &\cdots &0\\ a'_{(i+1)1}&\cdots & a'_{(i+1)r} \\ \vdots &\cdots & \vdots \\ a'_{r1}&\cdots & a'_{rr} \\ \end{vmatrix}=0 $$
显然这与已知是矛盾的,所以 $\boldsymbol{B}$的行组 $\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_r\}$是线性无关的。同时我们又知道$\{\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$中的向量 $\boldsymbol{a}'_i$为$\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_r\}$对应向量 $\boldsymbol{b}_i$上添加 $n-r$个分量得到的,相当于在原有的线性方程组 $\boldsymbol{B}\boldsymbol{x}=\boldsymbol{0}$上添加了 $n-r$个方程,这显然不能改变原线性方程组只有零解的事实,所以 $\{\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$是线性无关的。
接下来我们来证 $\{\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$能够线性表出 $\boldsymbol{A}$的任意行向量。任取 $\boldsymbol{A}$的行组中的一个向量 $\boldsymbol{a}$,假设 $\{\boldsymbol{a},\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$是线性无关的,即存在 $\mu,\lambda_1,\cdots,\lambda_r$使得:$\mu\boldsymbol{a}+\sum_{i=1}^r \lambda_i\boldsymbol{a}'_i=\boldsymbol{0}$。我们知道,$\{\boldsymbol{a}'_1,\cdots,\boldsymbol{a}'_r\}$是线性无关的,所以 $\mu\neq 0$,从而:$\boldsymbol{a}=\sum_{i=1}^r(-\frac{\lambda_i}{\mu})\boldsymbol{a}'_i$,得证。
(b)设矩阵 $\boldsymbol{A}$的行秩为 $r$,下面证明其非零子式的最高阶数为 $r$,也即 $\boldsymbol{A}$的一个 $r$阶子式非零,而其所有 $r+1$阶子式为零。
先证明 $\boldsymbol{A}$的所有 $r+1$阶子式为零。由于 $\boldsymbol{A}$的行秩为 $r$,所以 $\boldsymbol{A}$的所有 $r+1$阶子式的行组是线性相关的。由(a)部分的证明过程可知,这些 $r+1$阶子式全为零。
接下来我们证明 $\boldsymbol{A}$中存在一个不为零的 $r$阶子式。考虑到 $\boldsymbol{A}$的行秩为 $r$,故而其列秩也为 $r$,所以 $\boldsymbol{A}$中分别各存在 $r$个线性无关的行向量与列向量,按照他们所在的行与列取子矩阵,得到的 $r\times r$阶子矩阵的行列式即为 $r$阶的非零子式。证毕。
5.矩阵乘法不增加秩
设有矩阵 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{n\times p}$,则 $\boldsymbol{A}$与 $\boldsymbol{B}$的乘积满足:$\text{rank}(\boldsymbol{AB})\leq \min \{\text{rank}(\boldsymbol{A}),\text{rank}(\boldsymbol{B})\}$
证明:
记 $r=\text{rank}(\boldsymbol{A}),s=\text{rank}(\boldsymbol{B}),l=\min \{m, p\}$。若 $r\geq l$,则 $\text{rank}(\boldsymbol{AB})\leq l \leq r$,所以下设 $r<l$。由科大出版社李烔生版《线性代数第 2 版》101 页定理 3:

其中矩阵括号内上面那行代表子式所选行的序号,同理下面那行代表列的选法。回到我们的证明中,我们任取 $\boldsymbol{AB}$的一个 $r+1$阶子式,记其行的选法为 $1\leq i_1<i_2<\cdots <i_{r+1} \leq m$,列的选法为$1\leq j_1<\cdots <j_{r+1}\leq p$,则:
$$ \boldsymbol{C} \begin{pmatrix} i_1&i_2&\cdots & i_{r+1} \\ j_1&j_2&\cdots & j_{r+1} \end{pmatrix} =\sum\limits_{1\leq k_1<\cdots <k_{r+1}\leq n} \boldsymbol{A} \begin{pmatrix} i_1&i_2&\cdots & i_{r+1} \\ k_1&k_2&\cdots & k_{r+1} \end{pmatrix} \boldsymbol{B} \begin{pmatrix} k_1&k_2&\cdots & k_{r+1} \\ j_1&j_2&\cdots & j_{r+1} \end{pmatrix} $$
而我们知道 $\text{rank}(\boldsymbol{A})=r$所以 $\boldsymbol{A}$的所有 $r+1$阶子式均为零,所以 $\boldsymbol{AB}$的所有 $r+1$阶子式均为零,因此 $\text{rank}(\boldsymbol{AB})\leq r$,同理 $\text{rank}(\boldsymbol{AB})\leq s$,证毕。
6.满秩与可逆等价
设有方阵 $\boldsymbol{A}_{n\times n}$,则 $\boldsymbol{A}$满秩当且仅当 $\boldsymbol{A}$可逆。
(a)若 $\boldsymbol{A}$满秩,下面证明其可逆
考虑定理 1.6.5.4 结论(4),若 $\text{rank}(\boldsymbol{A})=n$,则 $\boldsymbol{A}$可以经过有限次初等矩阵化为 $n$阶单位阵 $\boldsymbol{I}_n$,也即存在 $n$阶可逆矩阵 $\boldsymbol{P},\boldsymbol{Q}$使得 $\boldsymbol{PAQ}=\boldsymbol{I}_n$,所以 $\boldsymbol{A}=\boldsymbol{P}^{-1}\boldsymbol{Q}^{-1}$,故而 $\boldsymbol{A}$存在其逆矩阵 $\boldsymbol{A}^{-1}=\boldsymbol{QP}$。
(b)若 $\boldsymbol{A}$可逆,下面证明其满秩
若 $\boldsymbol{A}$可逆,则 $\det \boldsymbol{A}\neq 0$,故而显然 $\det \boldsymbol{A}$即是原矩阵 $\boldsymbol{A}$的一个非零的 $n$阶子式,则显然 $\text{rank}(\boldsymbol{A})=n$,证毕。
7.幂等矩阵的秩等于它的迹
若$\boldsymbol{A}^2=\boldsymbol{A}$,则$\text{rank}(\boldsymbol{A})=tr(\boldsymbol{A})$
证明:
设 $\text{rank}(\boldsymbol{A})=r$,则存在 $n$阶可逆矩阵 $\boldsymbol{P},\boldsymbol{Q}$使得:
$$ \boldsymbol{A}=\boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \boldsymbol{Q} $$
由 $\boldsymbol{A}$为幂等矩阵,所以:
$$ \boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \boldsymbol{Q}\boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \boldsymbol{Q}=\boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \boldsymbol{Q}\tag{1} $$
即:
$$ \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \boldsymbol{Q}\boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix}= \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix}\boldsymbol{Q} $$
将矩阵 $\boldsymbol{QP}$分块,记为:
$$ \boldsymbol{R}=\boldsymbol{QP}=\begin{bmatrix} \boldsymbol{R}_1 & \boldsymbol{R}_2\\ \boldsymbol{R}_3 & \boldsymbol{R}_4 \end{bmatrix} $$
其中 $\boldsymbol{R}_1$是 $r$阶方阵。那么(1)式可化为:
$$ \begin{bmatrix} \boldsymbol{R}_1 & \boldsymbol{O}\\ \boldsymbol{O} & \boldsymbol{O} \end{bmatrix} =\begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O} & \boldsymbol{O} \end{bmatrix} $$
所以:$\boldsymbol{R}_1=\boldsymbol{I}_r$,从而有:$\boldsymbol{Q}=\left[\begin{matrix} \boldsymbol{I}_r & \boldsymbol{R}_2 \\ \boldsymbol{R}_3 & \boldsymbol{R}_4 \end{matrix}\right]\boldsymbol{P}^{-1}$,所以:
$$ \boldsymbol{A}=\boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{R}_2 \\ \boldsymbol{R}_3 & \boldsymbol{R}_4 \end{bmatrix}\boldsymbol{P}^{-1}= \boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{R}_2\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix}\boldsymbol{P}^{-1} $$
所以 $\boldsymbol{A}$的迹为:
$$ tr(\boldsymbol{A})=tr\left( \boldsymbol{P} \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{R}_2\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix}\boldsymbol{P}^{-1} \right)=tr\left( \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{R}_2\\ \boldsymbol{O}&\boldsymbol{O} \end{bmatrix} \right)=r $$
7、可相似对角化的充要条件
设 $\boldsymbol{A}_{n\times n}$,则 $\boldsymbol{A}$能相似对角化的充要条件是 $\boldsymbol{A}$的 $n$个特征向量线性无关。
证明:
$\Rightarrow$:
设 $\boldsymbol{A}$可相似对角化,则有 $\boldsymbol{P}^{-1}\boldsymbol{AP}=\text{diag}(d_1,\cdots,d_n)$,将 $\boldsymbol{P}$用其列组表示:$\boldsymbol{P}=[\boldsymbol{p}_1,\cdots,\boldsymbol{p}_n]$,则;
$$ \boldsymbol{A}\begin{bmatrix}\boldsymbol{p}_1,\cdots,\boldsymbol{p}_n\end{bmatrix}= \begin{bmatrix} d_1 & &\\ &\ddots&\\ &&d_n \end{bmatrix}\begin{bmatrix}\boldsymbol{p}_1,\cdots,\boldsymbol{p}_n\end{bmatrix} $$
即:
$$ \begin{bmatrix} \boldsymbol{Ap}_1,\cdots,\boldsymbol{Ap}_n \end{bmatrix}= \begin{bmatrix}d_1 \boldsymbol{p}_1,\cdots,d_n \boldsymbol{p}_n \end{bmatrix} $$
由于 $\boldsymbol{P}$可逆,所以 $\boldsymbol{p}_i\neq \boldsymbol{0}$,从而 $\boldsymbol{p}_1,\cdots,\boldsymbol{p}_n$是 $\boldsymbol{A}$的特征向量,而 $d_1,\cdots,d_n$是对应的特征值。注意到$\boldsymbol{p}_1,\cdots,\boldsymbol{p}_n$是可逆矩阵 $\boldsymbol{P}$的列组,从而它是线性无关的,于是 $\boldsymbol{A}$的 $n$ 个特征向量线性无关。
$\Leftarrow$:
设 $\boldsymbol{A}$的 $n$个特征向量线性无关,则以其为列组构成的矩阵 $\boldsymbol{P}=[\boldsymbol{p}_1,\cdots,\boldsymbol{p}_n]$是可逆的,设其对应的特征值为 $\lambda_1,\cdots,\lambda_n$,取矩阵 $\boldsymbol{D}=\text{diag}(\lambda_1,\cdots,\lambda_n)$,容易证明 $\boldsymbol{D}=\boldsymbol{P}^{-1}\boldsymbol{AP}$,命题得证。
二、矩阵微分
1、矩阵微分的性质
1.矩阵乘积的微分:$\text d (\boldsymbol{UV})=(\text{d} \boldsymbol{U})\boldsymbol{V}+\boldsymbol{U}\text d \boldsymbol{V}$
证明:
考虑矩阵 $\text d (\boldsymbol{UV})$的 $(i,j)$位置上的元素 $[\text d (\boldsymbol{UV})]_{ij}$,我们有:
$$ \begin{align} [\text d (\boldsymbol{UV})]_{ij}&=\text d ([\boldsymbol{UV}]_{ij})=\text d (\sum_k u_{ij}v_{kj})=\sum_k \text d (u_{ik}v_{kj})\\ &=\sum_k (\text d u_{ik})v_{kj}+\sum_k u_{ik}\text d v_{kj}\\ &=[(\text d \boldsymbol{U})\boldsymbol{V}]_{ij}+[\boldsymbol{U}\text d \boldsymbol{V}]_{ij} \end{align} $$
2.行列式的微分:$\text d |\boldsymbol{X}|=|\boldsymbol{X}|tr(\boldsymbol{X}^{-1}\text d \boldsymbol{X})$
证明:
我们知道,行列式本质上是矩阵变元的标量函数 $|\cdot|:\mathbb{R}^{m\times n}\to\mathbb{R}$,现考察 $\frac{\partial |\boldsymbol{X}|}{\partial x_{ij}}$。将 $|\boldsymbol{X}|$按照第 $i$行展开,有:
$$ |\boldsymbol{X}|=\sum\limits_{j=1}^n x_{ij}\cdot A_{ij} $$
所以,$\frac{\partial |\boldsymbol{X}|}{\partial x_{ij}}=A_{ij}$,于是行列式函数对于 $\boldsymbol{X}$的 Jacobian 矩阵:
$$ \boldsymbol{J}=\frac{\partial |\boldsymbol{X}|}{\partial \boldsymbol{X}^\top}= \begin{bmatrix} A_{11} & \cdots & A_{m1}\\ \vdots & \ddots & \vdots\\ A_{1n} & \cdots & A_{mn} \end{bmatrix} $$
显然 $\boldsymbol{J}$就是 $\boldsymbol{X}$的伴随矩阵!从而:$\boldsymbol{J}=\boldsymbol{X}^{-1}|\boldsymbol{X}|$。考虑到 Jacobian 矩阵的定义,有:
$$ \text d |\boldsymbol{X}|=\boldsymbol{J}\text d \boldsymbol{X}\tag{1} $$
在(1)式等式两边同时取迹,由 $\text d (tr(\boldsymbol{X}))=tr(\text d \boldsymbol{X})$:
$$ \text d (tr(|\boldsymbol{X}|))=tr(\boldsymbol{J}\text d \boldsymbol{X}) $$
又因为 $\boldsymbol{X}$为实数,从而:
$$ \text d \boldsymbol{X}=tr(\boldsymbol{X}^{-1}|\boldsymbol{X}|\text d \boldsymbol{X})=|\boldsymbol{X}|tr(\boldsymbol{X}^{-1}\text d \boldsymbol{X}) $$
3.逆矩阵的微分:$\text d (\boldsymbol{X}^{-1})=-\boldsymbol{X}^{-1}(\text d \boldsymbol{X})\boldsymbol{X}^{-1}$
证明:
由于 $\boldsymbol{XX}^{-1}=\boldsymbol{I}$,两边同时取微分有:
$$ (\text d \boldsymbol{X})\boldsymbol{X}^{-1}+\boldsymbol{X}\text d (\boldsymbol{X}^{-1})=0 $$
再同时左乘 $\boldsymbol{X}^{-1}$易证。