前言
本章主要学习矩阵代数的基本知识,建议读者具备一定的线代基础。(事实上本章就是一般线代课程的主体内容,浓缩起来有点像字典了)
系列文章
1、矩阵及其基本运算
定义 1.1.1:矩阵
我们将由$m\times n$个元素构成的$m$行 $n$列表称为矩阵(matrix),如:
$$ \boldsymbol{A}= \begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix}_{m\times n} $$
简记为:$\boldsymbol{A}_{m\times n}$或$(a_{ij})_{m\times n}$。根据元素所属可分为实矩阵与复矩阵。当矩阵的元素全为零时,称其为零矩阵,记为$\boldsymbol{O}$。当矩阵 $\boldsymbol{A}_{m\times n}$有 $m=n$时称其为方阵,特别地,当一方阵的主对角线元素全为 1 时,称为单位矩阵,记为 $\boldsymbol{I}_n$。当一个方阵除了主对角线元素为均为零,称其为对角矩阵,记为 $\boldsymbol{D}=\text{diag}(d_{11},\cdots,d_{nn})$。
定义 1.1.2:向量
对于矩阵$\boldsymbol{A}_{m\times n}$,当$m=1$或$n=1$时称其为向量。当$m=1$时称为行向量,当$n=1$时称为列向量。当向量的元素全为零时,称为零向量,记为 $\boldsymbol{0}$。
向量可根据元素的不同分为常数向量(元素是数)、函数向量(元素是关于参数的函数)与随机向量(元素是随机变量或随机过程)。
定义 1.1.3:矩阵切片记号
有时候我们需要将矩阵内的一些元素单独拿出来研究,我们约定:
(1)$\boldsymbol{A}(i,:)$:指 $\boldsymbol{A}$的第 $i$行;
(2)$\boldsymbol{A}(:,j)$:指 $\boldsymbol{A}$的第 $j$列;
(3)$\boldsymbol{A}(p:q,r:s)$:指 $\boldsymbol{A}$的第 $p$行到第 $q$行(含),第 $r$列到第 $s$列(含)。
定义 1.1.4:矩阵转置、共轭与共轭转置
(1)转置:现有矩阵 $\boldsymbol{A}=(a_{ij})_{m\times n}$,则称矩阵 $\boldsymbol{B}=(a_{ji})_{n\times m}$为矩阵 $\boldsymbol{A}$的转置矩阵,记为 $\boldsymbol{A}^{\top}$。
(2)共轭:若定义 $\overline{a}_{ij}$为 $a_{ij}$的共轭复数,则称 $\boldsymbol{\overline{A}}=(\overline{a}_{ij})_{m\times n}$为矩阵 $\boldsymbol{A}$的共轭矩阵。(注意:这里我的记号与书上不同,教材上用 $\boldsymbol{A^*}$表示共轭,而这与笔者学习线代时的伴随矩阵冲突,故而改用上划线)显然若$\boldsymbol{A}$为实矩阵,则 $\boldsymbol{A}=\boldsymbol{\overline{A}}$。
(3)共轭转置:称矩阵 $\boldsymbol{B}=(\overline{a_{ji}})_{n\times m}$为矩阵 $\boldsymbol{A}$的共轭转置矩阵,记为 $\boldsymbol{A}^H$。
我们分别称满足 $\boldsymbol{A}=\boldsymbol{A}^\top$的实方阵 与满足$\boldsymbol{A}=\boldsymbol{A}^H$的复方阵 为对称矩阵和 Hermitian 矩阵。由于教材的作者在通信相关领域造诣颇深,所以很多时候默认为复数域,用共轭转置居多。
定义 1.1.5:矩阵的逆
设有一方阵$\boldsymbol{A}_{n\times n}$,若存在矩阵 $\boldsymbol{A}^{-1}$满足 $\boldsymbol{A}^{-1}\boldsymbol{A}=\boldsymbol{A}\boldsymbol{A}^{-1}=\boldsymbol{I}$,则称 $\boldsymbol{A}^{-1}$为矩阵 $\boldsymbol{A}$ 的逆矩阵,并称矩阵 $\boldsymbol{A}$是可逆的或非奇异的。
定义 1.1.6:函数矩阵
($\color{red}{!!}$注意:在函数矩阵前,书上讲了矩阵函数,这里略过了,不要混淆这两个概念)
若矩阵 $\boldsymbol{A}$的元素 $a_{ij}$是关于参数 $t$的函数,则称矩阵 $\boldsymbol{A}=(a_{ij}(t))_{m\times n}$为参数 $t$的函数矩阵。类似于一元函数,我们可以定义函数矩阵的导数与积分:
(1)函数矩阵的导数 $\frac{\text{d}\boldsymbol{A}}{\text{d}t}\overset{\underset{\mathrm{def}}{}}{=}(\frac{\text{d}a_{ij}(t)}{\mathrm{d}t})_{m\times n}$
(2)函数矩阵的 积分 $\int\boldsymbol{A}\text{d}t\overset{\underset{\mathrm{def}}{}}{=}(\int a_{ij}(t)\text{d}t)_{m\times n}$
定义 1.1.7:矩阵的函数
上节我们介绍了两个容易混淆的概念:函数矩阵与矩阵函数,下面我们介绍另一个容易混淆的概念:矩阵的函数:
考虑矩阵 $\boldsymbol{A}_{m\times n}\in \mathbb{F}^{m\times n}$,若函数 $f:\boldsymbol{F}\mapsto\boldsymbol{F}$,则
$$ f(\boldsymbol{A})=[f(a_{ij})]_{m\times n} $$
若函数 $f:\mathbb{F}^{m\times n}\mapsto\boldsymbol{F}$,则
$$ f(\boldsymbol{A})=\sum_{i=i}^m\sum_{j=1}^n f(a_{ij}) $$
所以,矩阵的函数具体形式是什么,还得看函数的定义域。
定义 1.1.8:幂等矩阵和对合矩阵
(1)幂等矩阵:若方阵 $\boldsymbol{A}_{n\times n}$满足 $\boldsymbol{A}^2=\boldsymbol{A}\boldsymbol{A}=\boldsymbol{A}$,则称该矩阵为幂等矩阵;
(2)对合矩阵:若方阵 $\boldsymbol{A}_{n\times n}$满足 $\boldsymbol{A}^2=\boldsymbol{I}$,则称该矩阵为对合矩阵。
2、矩阵的初等变换
定义 1.2.1:矩阵的初等变换
矩阵 $\boldsymbol{A}_{m\times n}$的下述三种变换之一,称为初等行(列)变换:
(1)调换:调换 $\boldsymbol{A}$的某两行(列);
(2)倍加:$\boldsymbol{A}$某一行(列)乘上一个非零的数 $a$,再加到另一行(列)上;
(3)倍乘:$\boldsymbol{A}$某一行(列)乘上一个非零的数 $b$;
矩阵的初等行变换与初等列变换统称为初等变换。
定义 1.2.2:初等矩阵与变换矩阵
(1)初等矩阵:由单位矩阵经过有限次初等变换得到的矩阵。
(2)$\boldsymbol{E}_{ij}$:表示(i,j)位置元素为 1 而其余元素为 0 的方阵
(3)变换矩阵:矩阵的初等变换可以通过矩阵乘法实现,三种初等变换对应的变换矩阵如下:
- 调换矩阵:$\boldsymbol{P}_{ij}\overset{\underset{\mathrm{def}}{}}{=}\boldsymbol{I}_n-\boldsymbol{E}_{ii}-\boldsymbol{E}_{jj}+\boldsymbol{E}_{ij}+\boldsymbol{E}_{ji}$
- 倍加矩阵:$\boldsymbol{Q}_{ij}(a)\overset{\underset{\mathrm{def}}{}}{=}\boldsymbol{I}_n+a\boldsymbol{E}_{ij}$
- 倍乘矩阵:$\boldsymbol{P}_i(b)\overset{\underset{\mathrm{def}}{}}{=}\boldsymbol{I}_n+(b-1)\boldsymbol{E}_{ii}$
容易知道,变换矩阵都是可逆的,其逆矩阵也是一个变换矩阵。同时可以验证,当对矩阵 $\boldsymbol{A}$应用初等行变换时,相当于用对应变换矩阵左乘上 $\boldsymbol{A}$;应用初等列变换时,相当于用对应变换矩阵右乘上 $\boldsymbol{A}$。
定义 1.2.3:矩阵相抵
对于矩阵 $\boldsymbol{A}_{m\times n}$与 $\boldsymbol{B}_{m\times n}$,若 $\boldsymbol{A}$可以通过有限次初等变换变为矩阵 $\boldsymbol{B}$,则称二者是相抵的或等价的。
矩阵 $\boldsymbol{A}_{m\times n}$与 $\boldsymbol{B}_{m\times n}$相抵,当且仅当存在若干 $m$阶初等矩阵 $\boldsymbol{P}_1,\cdots,\boldsymbol{P}_s$与若干 $n$阶初等矩阵 $\boldsymbol{Q}_1,\cdots,\boldsymbol{Q}_t$满足 $\boldsymbol{P}_1\cdots\boldsymbol{P}_s\boldsymbol{A}\boldsymbol{Q}_1\cdots\boldsymbol{Q}_t=\boldsymbol{B}$。
如果我们记 $\boldsymbol{P}=\boldsymbol{P}_1\cdots\boldsymbol{P}_s$,$\boldsymbol{Q}=\boldsymbol{Q}_1\cdots\boldsymbol{Q}_t$,显然 $\boldsymbol{P}、\boldsymbol{Q}$是可逆的,则我们有如下更精简的定理:
定理 1.2.1
矩阵 $\boldsymbol{A}_{m\times n}$与 $\boldsymbol{B}_{m\times n}$相抵,当且仅当存在 $m$阶可逆方阵 $\boldsymbol{P}$与 $n$阶可逆方阵 $\boldsymbol{Q}$使得 $\boldsymbol{P}\boldsymbol{A}\boldsymbol{Q}=\boldsymbol{B}$
定理 1.2.2 可逆矩阵的刻画
设 $n$阶方阵 $\boldsymbol{A}$,自变量向量 $\boldsymbol{x}=[x_1,\cdots,x_n]^\top$,零向量 $\boldsymbol{0}=[0,\cdots,0]^\top$,则以下命题等价:
(1)$\boldsymbol{A}$可逆;
(2)$\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}$只有零解;
(3)$\boldsymbol{A}$与单位阵 $\boldsymbol{I}$行相抵;
(4)$\boldsymbol{A}$可表示为有限个初等矩阵的乘积。
证明见:这里。
3、向量空间、线性映射与 Hilbert 空间
定义 1.3.1:向量空间
考虑由若干$n$维向量组成的集合$\boldsymbol{V}$与若干数组成的集合$\boldsymbol{S}$,在系统$(\boldsymbol{V},\boldsymbol{S})$上构造如下定义:
(1)相等:设$\boldsymbol{a}=(a_1,\cdots,a_n),\boldsymbol{b}=(b_1,\cdots,b_n)\in \boldsymbol{V}$,若$a_i=b_i$,则称向量$\boldsymbol{a},\boldsymbol{b}$相等,记作$\boldsymbol{a}=\boldsymbol{b}$;
(2)加法:定义加法运算 $+$:$\boldsymbol{a}+\boldsymbol{b}=(a_1+b_1,\cdots,a_n+b_n)$;
(3)数乘:设 $c\in \boldsymbol{S}$,则定义数乘 $\cdot$:$c\cdot \boldsymbol{a}=(ca_1,\cdots,ca_n)$。
如果运算 $+,\cdot$在$\boldsymbol{V}$上封闭,且满足如下性质:
(a)加法结合律:设$\boldsymbol{\alpha},\boldsymbol{\beta},\boldsymbol{\gamma}\in \boldsymbol{V}$,则:
$$ (\boldsymbol{\alpha}+\boldsymbol{\beta})+\boldsymbol{\gamma}=\boldsymbol{\alpha}+(\boldsymbol{\beta}+\boldsymbol{\gamma}) $$
(b)加法交换律:设$\boldsymbol{\alpha},\boldsymbol{\beta}\in \boldsymbol{V}$,则:
$$ \boldsymbol{\alpha}+\boldsymbol{\beta}=\boldsymbol{\beta}+\boldsymbol{\alpha} $$
(c)零向量存在:$\exists \boldsymbol{0}=(0,\cdots,0)\in \boldsymbol{V}$,使得 $\forall \boldsymbol{\alpha}\in \boldsymbol{V}$有:
$$ \boldsymbol{\alpha}+\boldsymbol{0}=\boldsymbol{\alpha} $$
(d)负向量存在:设$\boldsymbol{\alpha}\in \boldsymbol{V}$,则$\exists \boldsymbol{\beta}\in \boldsymbol{V}$,使得
$$ \boldsymbol{\alpha}+\boldsymbol{\beta}=\boldsymbol{0} $$
我们记 $\boldsymbol{\beta}=-\boldsymbol{\alpha}$,称之为 $\boldsymbol{\alpha}$的逆向量
(e)数乘结合律:设 $\lambda,\mu\in \boldsymbol{S},\boldsymbol{\alpha}\in \boldsymbol{V}$,有:
$$ (\lambda\mu)\boldsymbol{\alpha}=\lambda(\mu\boldsymbol{\alpha}) $$
(f)数乘对数的分配律:设 $\lambda,\mu\in \boldsymbol{S},\boldsymbol{\alpha}\in \boldsymbol{V}$,有:
$$ (\lambda+\mu)\boldsymbol{\alpha}=\lambda\boldsymbol{\alpha}+\mu\boldsymbol{\alpha} $$
(g)数乘对向量的分配律:设 $\lambda\in \boldsymbol{S},\boldsymbol{\alpha},\boldsymbol{\beta}\in \boldsymbol{V}$,有:
$$ \lambda(\boldsymbol{\alpha}+\boldsymbol{\beta})=\lambda\boldsymbol{\alpha}+\lambda\boldsymbol{\beta} $$
(h)数乘单位律:$\exists 1\in\boldsymbol{S}$,使得 $\forall\boldsymbol{\alpha}\in\boldsymbol{V}$:
$$ 1\boldsymbol{\alpha}=\boldsymbol{\alpha} $$
那么,我们称代数系统 $(\boldsymbol{V},\boldsymbol{S},+,\cdot)$为一个 $n$维的向量空间。
定义 1.3.2:特殊的向量空间
一般而言,集合 $\boldsymbol{V}$与 $\boldsymbol{S}$的定义域是相同的:$\boldsymbol{F}$,那么 $\boldsymbol{V}$可表示为 $\boldsymbol{F}^n$,相应定义加法与数乘后,为了简化记法,我们称$\mathbb{F}^n$为一向量空间。(用表示域的黑板报粗体说明向量空间不仅包括集合还包括运算)
特别地,当$\boldsymbol{F}$为实数集 $\boldsymbol{R}$时,有对应的 $n$维实向量空间 $\mathbb{R}^n$,同理也有$n$维复向量空间 $\mathbb{C}^n$。
定义 1.3.3:线性空间
(以下是个人看法)关于线性空间的定义好像每本教材都不相同,作为非数学专业的工科生,在这里就不扣细节了,此处包括后续的笔记中,线性空间与向量空间为同一概念,统一简称:空间。
定义 1.3.4:子空间
设有空间 $\mathbb{F}^n$,$\boldsymbol{F}^n$的一个非空子集 $
\boldsymbol{U}$,如果在 $\boldsymbol{U}$上可以定义运算 $+,\cdot$且满足封闭性与 8 条线性性质,则称空间 $\mathbb{U}$为空间 $\mathbb{F}^n$的一个子空间。
定义 1.3.5:子空间判定定理
就定义而言,子空间的判定需要一一判定 10 条性质,为了简化我们有如下的定理:
设有空间 $\mathbb{F}^n$,$\boldsymbol{F}^n$的一个非空子集 $
\boldsymbol{U}$,空间 $\mathbb{U}$为空间 $\mathbb{F}^n$的一个子空间当且仅当以下三个条件均满足:
(1)零向量是 $\boldsymbol{U}$中的元素: $\boldsymbol{0}\in \boldsymbol{U}$;
(2)加法封闭:$\forall\boldsymbol{x},\boldsymbol{y}\in\boldsymbol{U}$,有 $\boldsymbol{x}+\boldsymbol{y}\in\boldsymbol{U}$;
(3)数乘封闭:$\forall\boldsymbol{x}\in\boldsymbol{U},\forall\lambda\in\boldsymbol{F}$,有 $\lambda\boldsymbol{x}\in\boldsymbol{U}$;
证明见教材 19 页。
定义 1.3.6:线性映射
关于映射的概念我们就不复习了,直接引出线性映射的概念:
设空间 $\mathbb{U},\mathbb{V}$为空间 $\mathbb{F}^n$的子空间,若映射 $\mathscr{A}:\mathbb{U}\mapsto\mathbb{V}$满足:
(LM1)$\forall\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2\in\boldsymbol{U}$,有 $\mathscr{A}(\boldsymbol{\alpha}_1+\boldsymbol{\alpha}_2)=\mathscr{A}\boldsymbol{\alpha}_1+\mathscr{A}\boldsymbol{\alpha}_2$;
(LM2)$\forall\lambda\in\boldsymbol{F},\boldsymbol{\alpha}\in\boldsymbol{U}$,有 $\mathscr{A}(\lambda\boldsymbol{\alpha})=\lambda\mathscr{A}(\boldsymbol{\alpha})$
则称映射 $\mathscr{A}$为空间 $\mathbb{U}$到 $\mathbb{V}$的线性映射。
我们有几个特殊的线性映射:
(1)线性函数:若空间 $\mathbb{V}$为数域 $\mathbb{F}$,则称 $\mathscr{A}$为 $\mathbb{U}$上的线性函数;
(2)线性变换:若$\mathbb{U}=\mathbb{V}$,则称$\mathscr{A}$为 $\mathbb{U}$上的线性变换;
(3)零映射:设 $\boldsymbol{0}_2$为空间 $\mathbb{V}$的零向量,则映射 $\mathscr{O}:\mathbb{U}\mapsto\mathbb{V},\forall\boldsymbol{\alpha}\in\boldsymbol{U},\mathscr{O}(\boldsymbol{\alpha})=\boldsymbol{0}_2$,则称 $\mathscr{O}$为$\mathbb{U}$到$\mathbb{V}$的零映射;
(4)恒等变换:若$\mathscr{I}_v:\mathbb{U}\mapsto\mathbb{U},\forall\boldsymbol{\alpha}\in\boldsymbol{U},\mathscr{I}_v(\boldsymbol{\alpha})=\boldsymbol{\alpha}$,则称 $\mathscr{O}$为$\mathbb{U}$上的恒等变换。
事实上,关于子空间与线性变换还有很多内容,这里只是大概介绍,后续会分别单开一章。
定义 1.3.7:内积空间、赋范空间与 Hilbert 空间
(这部分了解为主,以下的各种定义定理也不是特别严谨,当然对于工科生来说了解这些就足够了)
设有数集 $\boldsymbol{F}$,数域 $\mathbb{F}$与 $n$维向量空间 $\mathbb{F}^n$,向量 $\boldsymbol{x},\boldsymbol{y},\boldsymbol{z}\in\mathbb{F}^n $,数 $a,b\in \boldsymbol{F}$。
(1)度量空间:设映射 $d:\mathbb{F}^n\times\mathbb{F}^n\mapsto\boldsymbol{R}_{+}\cup\{0\}$,且满足:
- 非负:$d(\boldsymbol{x},\boldsymbol{y})\ge 0,d(\boldsymbol{x},\boldsymbol{y})=0\Leftrightarrow\boldsymbol{x}=\boldsymbol{y}$
- 三角不等式:$d(\boldsymbol{x},\boldsymbol{y})\le(\boldsymbol{x},\boldsymbol{z})+d(\boldsymbol{z},\boldsymbol{y})$
则称 $(\mathbb{F}^n,d)$为度量空间。
(2)赋范空间:设映射 $p:\mathbb{F}^n\mapsto\boldsymbol{R}$,且满足:
- 非负:$p(\boldsymbol{x})\ge 0,p(\boldsymbol{x})=0\Leftrightarrow\boldsymbol{x}=\boldsymbol{0}$
- 齐次:$p(a\boldsymbol{x})=|a|p(\boldsymbol{x})$
- 三角不等式:$p(\boldsymbol{x}+\boldsymbol{y})\le p(\boldsymbol{x})+p(\boldsymbol{y})$
则称 $(\mathbb{F}^n,d)$为赋范空间。
容易证明,赋范空间一定是度量空间,反之未必。赋范空间刻画的是向量本身的性质,而度量空间刻画的是向量间的性质。
(3)内积空间:设映射 $<\cdot,\cdot>:\mathbb{F}^n\times\mathbb{F}^n\mapsto\boldsymbol{R}$,且满足:
- 共轭对称:$<\boldsymbol{x},\boldsymbol{y}>=\overline{<\boldsymbol{y},\boldsymbol{x}>}$
- 第一变元线性:
$$ <a\boldsymbol{x}+b\boldsymbol{y},\boldsymbol{z}>=a<\boldsymbol{x},\boldsymbol{z}>+b<\boldsymbol{y},\boldsymbol{z}> $$
- 非负:$<\boldsymbol{x},\boldsymbol{x}>\ge 0,<\boldsymbol{x},\boldsymbol{x}>=0\Leftrightarrow\boldsymbol{x}=\boldsymbol{0}$
则称 $(\mathbb{F}^n,<\cdot,\cdot>)$为内积空间。容易证明,内积空间一定是赋范空间:取 $||\boldsymbol{x}||=\sqrt{<\boldsymbol{x},\boldsymbol{x}>}$。
(4)Cauchy 数列与空间的完备性
我们先来复习一下 Cauchy 数列的定义:设 $\{x_i\}$为 $\boldsymbol{F}$上的一数列,若$\forall\epsilon\ge 0$, $\exists N\in\boldsymbol{N}_+$,使得当 $m,n\in\boldsymbol{N}_+,m,n>N$时,均有
$$ |x_m-x_n|<\epsilon $$
则称$\{x_i\}$为一 Cauchy 列或基本列。
现在我们来刻画向量空间的完备性:对于空间$\mathbb{F}^n$中的每一个 Cauchy 列$\{\boldsymbol{x}_i\}$,均$\exists \boldsymbol{x}\in\mathbb{F}^n$,使得 $\lim\limits_{m \to \infty}\boldsymbol{x}_m=\boldsymbol{x}$,则称该向量空间是完备的。
特别地,对于赋范空间$\mathbb{F}^n$中的每一个 Cauchy 列$\{\boldsymbol{x}_i\}$,均$\exists \boldsymbol{x}\in\mathbb{F}^n$,使得 $\lim\limits_{m \to \infty}||\boldsymbol{x}_m||=||\boldsymbol{x}||$,则称该赋范空间是相对于范数完备的。
若一赋范空间是完备的,则称其为 Banach 空间;若一赋范空间是相对于范数完备的,则称其为 Hilbert 空间。Hilbert 空间一定是 Banach 空间,反之未必。
4、内积与范数
定义 1.4.1:典范内积
$n$维向量 $\boldsymbol{x}=[x_1,\cdots,x_n]^\top,\boldsymbol{y}=[y_1,\cdots,y_n]^\top$间的内积:
$$ <\boldsymbol{x},\boldsymbol{y}>=\boldsymbol{x}^H\boldsymbol{y}=\sum\limits_{i=1}^n \overline{x_i}y_i $$
称为典范内积。采用典范内积的有限维向量空间 $\mathbb{R}_n$或 $\mathbb{C}^n$称为 $n$阶 Euclidean 空间。
(1)常数向量的典范内积与范数
- $L_0$范数(事实上并不满足齐次性,只是虚拟出来的概念):
$$ ||\boldsymbol{x}||_0\overset{\underset{\mathrm{def}}{}}{=}非零元素个数 $$
- $L_1$范数(1 范数):
$$ ||\boldsymbol{x}||_1\overset{\underset{\mathrm{def}}{}}{=}\sum\limits_{i=1}^n |x_i| $$
- $L_2$范数(Euclidean 范数):
$$ ||\boldsymbol{x}||_2\overset{\underset{\mathrm{def}}{}}{=}\sqrt{\sum_{i=1}^n |x_i|^2} $$
- $L_\infty$范数(无穷范数或极大范数):
$$ ||\boldsymbol{x}||_\infty\overset{\underset{\mathrm{def}}{}}{=}\max\{|x_1|,\cdots,|x_n|\} $$
- $L_p$范数($H\ddot{o}lder$ 范数或 $p$范数):
$$ ||\boldsymbol{x}||_p\overset{\underset{\mathrm{def}}{}}{=}(\sum\limits_{i=1}^n |x_i|^p)^{(\frac{1}{p})} $$
对于 $L_p$范数而言,当 $p=2$时,其与 Euclidean 范数等价。由于 Euclidean 范数应用最为广泛,故而下文及后续笔记中,范数默认指 Euclidean 范数。
利用向量的典范内积与范数我们可以定义向量间夹角与正交的概念。
两个向量之间的夹角定义为:
$$ \cos{\theta}\overset{\underset{\mathrm{def}}{}}{=}\frac{<\boldsymbol{x},\boldsymbol{y}>}{\sqrt{<\boldsymbol{x},\boldsymbol{x}>}\sqrt{<\boldsymbol{y},\boldsymbol{y}>}}=\frac{\boldsymbol{x}^H\boldsymbol{y}}{||\boldsymbol{x}||\cdot||\boldsymbol{y}||} $$
当两向量内积为零时,称二者正交,记为 $\boldsymbol{x}\bot\boldsymbol{y}$,此时二者间夹角为 $\frac{\pi}{2}$。
(2)函数向量的内积与范数
设 $\boldsymbol{x}(t),\boldsymbol{y}(t)$为关于参数 $t$的函数向量,即 $x_i(t),y_i(t):[a,b]\mapsto\boldsymbol{R}$,则它们的内积为:
$$ <\boldsymbol{x}(t),\boldsymbol{y}(t)>\overset{\underset{\mathrm{def}}{}}{=}\int_a^b\boldsymbol{x}^H(t)\boldsymbol{y}(t) $$
类似地,我们也可以定义夹角与正交。
(3)随机向量的内积和范数
定义 1.4.2:矩阵的内积
设矩阵 $\boldsymbol{A}_{m\times n}=[\boldsymbol{a}_1,\cdots,\boldsymbol{a}_n],\boldsymbol{B}_{m\times n}=[\boldsymbol{b}_1,\cdots,\boldsymbol{b}_n]\in \mathbb{C}^{m\times n}$,将这两个矩阵向量化,即“拉长”为:
$$ \boldsymbol{\alpha}=\text{vec}(\boldsymbol{A})= \begin{bmatrix} \boldsymbol{a}_1\\ \vdots\\ \boldsymbol{a}_n \end{bmatrix}_{mn\times 1}, \boldsymbol{\beta}=\text{vec}(\boldsymbol{B})= \begin{bmatrix} \boldsymbol{b}_1\\ \vdots\\ \boldsymbol{b}_n \end{bmatrix}_{mn\times 1} $$
则两个矩阵间的内积定义为:
$$ <\boldsymbol{A},\boldsymbol{B}>\overset{\underset{\mathrm{def}}{}}{=}<\text{vec}(\boldsymbol{A}),\text{vec}(\boldsymbol{B})>=\sum\limits_{i=1}^n <\boldsymbol{a}_i,\boldsymbol{b}_i>=\text{tr}(\boldsymbol{A}^H\boldsymbol{B}) $$
定义 1.4.3:矩阵的范数
考虑实值函数 $||\cdot||:\mathbb{C}^{m\times n}\mapsto\mathbb{R}$,矩阵 $\boldsymbol{A}^{m\times n}\in \mathbb{C}^{m\times n}$,如果函数 $||\cdot||$满足:
- 非负:$||\boldsymbol{A}||\ge 0,||\boldsymbol{A}||=0\Leftrightarrow\boldsymbol{A}=\boldsymbol{O}$
- 正比例:$\forall c\in\mathbb{C}$,有 $||c\boldsymbol{A}||=|c|\cdot ||\boldsymbol{A}||$
- $||\boldsymbol{A}+\boldsymbol{B}||\le||\boldsymbol{A}||+||\boldsymbol{B}||$
- $||\boldsymbol{A}\boldsymbol{B}||\le||\boldsymbol{A}||\cdot||\boldsymbol{B}||$
例如:$f(\boldsymbol{A})=\sum\limits_{i=1}^m \sum\limits_{j=1}^n |a_{ij}|$
矩阵的范数常用的有诱导范数与元素形式范数:
(1)诱导范数
诱导范数又称 $\mathbb{F}^{m\times n}$上的算子范数:
$$ \begin{align} ||\boldsymbol{A}||&\overset{\underset{\mathrm{def}}{}}{=}\max{\{||\boldsymbol{Ax}||,\ where\ \boldsymbol{x}\in\mathbb{F}^{n},\ ||\boldsymbol{x}||=1\}}\\ &=\max{\{\frac{||\boldsymbol{Ax}||}{||\boldsymbol{x}||},\ where\ \boldsymbol{x}\in\mathbb{F}^{n},\ \boldsymbol{x}\neq\boldsymbol{0}\}} \end{align} $$
常用的诱导范数为诱导 p-范数:
$$ ||\boldsymbol{A}||_p\overset{\underset{\mathrm{def}}{}}{=}\max_{\boldsymbol{x}\neq\boldsymbol{0}}{\frac{||\boldsymbol{Ax}||_p}{||\boldsymbol{x}||_p}} $$
诱导 p-范数也称 Minkowski 诱导 p 范数或者 $L_p$范数。特别地,当 $p=1,2,\infty$时,对应的诱导范数分别为:
$$ \begin{align} ||\boldsymbol{A}||_1=\max_{1\leq j\leq n}{\sum_{i=1}^m |a_{ij}|}\\ ||\boldsymbol{A}||_{\text{spec}}=||\boldsymbol{A}||_2=\max{\lambda_i}\\ ||\boldsymbol{A}||_{\infty}=\max_{1\leq i\leq m}{\sum_{j=1}^n |a_{ij}|} \end{align} $$
也就是说,诱导$L_1$与 诱导$L_\infty$分别为矩阵 $\boldsymbol{A}_{m\times n}$的各列与各行元素绝对值之和的最大值。而 诱导$L_2$范数为矩阵最大特征值,其也被称为谱范数。
(2)元素形式范数
矩阵的元素形式范数是参考向量是范数,用矩阵的元素来表示的。它指下面的 p 矩阵范数:
$$ ||\boldsymbol{A}||_p\overset{\underset{\mathrm{def}}{}}{=}\left(\sum\limits_{i=1}^m \sum\limits_{j=1}^n |a_{ij}|^p\right)^{\frac{1}{p}} $$
常用的元素形式 p 范数为:
- $L_1$范数(和范数):
$$ ||\boldsymbol{A}||_1=\sum\limits_{i=1}^m \sum\limits_{j=1}^n |a_{ij}| $$
$L_2$范数(Frobenius 范数):
$$ ||\boldsymbol{A}||_F=\sqrt{\sum\limits_{i=1}^m \sum\limits_{j=1}^n |a_{ij}|^2} $$
$L_\infty$范数(最大范数)
$$ ||\boldsymbol{A}||_\infty=\max{\{|a_{ij}|\}} $$
多数情况下,矩阵的范数即是指 Frobenius 范数,有时也称为 Euclidean 范数或 Schur 范数。
5、随机向量
(由于目前还没有遇到需要用到这章内容的知识,暂时跳过~)
6、矩阵的性能指标
(极其重要的一章,整个线性代数的核心)
6.1:正定性的刻画:矩阵的二次型
定义 1.6.1.1:矩阵的二次型
设方阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}=[a_{ij}]_{n\times n}$,非零向量 $\boldsymbol{x}\in\mathbb{C}^{n\times 1}=[x_1,\cdots,x_n]\top$,则称
$$ \boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ia_{ij}x_j=\sum\limits_{i=1}^n a_{ii}x_i^2+\sum\limits_{i=1}^{n-1}\sum\limits_{j=i+1}^n (a_{ij}+a_{ji})x_{ij} $$
为方阵 $\boldsymbol{A}$的二次型,我们通常也称 $\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}$为$\boldsymbol{x}$的一个二次型函数:$f(x_1,\cdots,x_n)$。
显然对于同一个二次型函数,有不止一个矩阵与之对应,例如:
$$ \boldsymbol{A}= \begin{bmatrix} 1 & 4 & 2 \\ -1 & 7 & 5 \\ -1 & 6 & 3 \end{bmatrix}, \boldsymbol{B}= \begin{bmatrix} 1 & -1 & -1 \\ 4 & 7 & 6 \\ 2 & 5 & 3 \end{bmatrix} $$
所对应的二次型函数均为:$f(\boldsymbol{x})=x_1^2+7x_2^2+3x_3^2+3x_1x_2+x_1x_3+11x_2x_3$,但是却只有唯一的一个对称矩阵与之对应,故而在研究二次型函数的时候,通常约定 $\boldsymbol{A}$为实对称矩阵或复对称矩阵(Hermitian 矩阵),同时这样还有一个好处:二次型函数一定是实值函数!,因为:
$$ \overline{\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}}=(\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x})^H=\boldsymbol{x}^H\boldsymbol{A}^H\boldsymbol{x}=\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x} $$
为什么实值函数好呢?因为我们需要与 0 比较。
定义 1.6.1.2:矩阵的正定性
对于设 Hermitian 矩阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}$,非零向量 $\boldsymbol{x}\in\mathbb{C}^{n\times 1}$,若:
$$ \boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}>0,\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}\ge 0,\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}<0,\boldsymbol{x}^H\boldsymbol{A}\boldsymbol{x}\le 0 $$
则依次称 $\boldsymbol{A}$为正定的,半正定的,负定的,半负定的,依次记为 $\boldsymbol{A}\succ 0$、$\boldsymbol{A}\succeq 0$,$\boldsymbol{A}\prec 0$,$\boldsymbol{A}\preceq 0$
定理 1.6.1.1:正定性的刻画
对于设 Hermitian 矩阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}$,则以下命题等价:
(1)$\boldsymbol{A}$正定,即 $\forall\boldsymbol{x}\in\mathbb{C}^n,\boldsymbol{x}\neq\boldsymbol{0},\boldsymbol{x}^H\boldsymbol{Ax}> 0$
(2)Hurwitz:矩阵的所有 $k$阶顺序主子式($1\leq k\leq n$)均大于零
(3)存在一个非奇异的$n\times n$ 矩阵$\boldsymbol{Q}$ 使得$\boldsymbol{A}=\boldsymbol{Q}^H\boldsymbol{Q}$
(4)存在一个非奇异的$n\times n$ 矩阵,使得 Hermitian 矩阵$\boldsymbol{P}^H\boldsymbol{AP}$ 是正定的
证明
6.2:奇异性的刻画:矩阵的行列式
定义 1.6.2.1:矩阵的行列式
方阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}=[a_{ij}]_{n\times n}$的行列式定义为:
$$ \det{\boldsymbol{A}}=|\boldsymbol{A}|\overset{\underset{\mathrm{def}}{}}{=} \begin{vmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \cdots & \vdots \\ a_{n1} & \cdots & a_{nn} \end{vmatrix} $$
定义 1.6.2.2:子式、主子式与代数余子式
子式:在行列式中,选取 $k$行与 $k$列,其中元素保持相对位置不变而构成的行列式为原行列式的 $k$阶子式。特别地,如果行与列的选法相同,则称为 $k$阶主子式;若选取 前$k$行与列,则称为 $k$阶顺序主子式,通常记为$\boldsymbol{A}_k$,其对应的顺序子矩阵记为$\boldsymbol{\Delta}_k$。
余子式:我们称行列式 $|\boldsymbol{A}|$去掉第 $i$行与第 $j$列所剩的行列式为元素 $a_{ij}$的余子式,记作 $M_{ij}$。例如 $M_{11}$ 为:
$$ M_ {11}= \begin {bmatrix} \not {\color{Red} {a_{11}}} &\not {\color{Red} {a_{12}}} & \color {Red} {\cdots} & \not {\color{Red} {a_{1n}}} \\ \not {\color{Red} {a_{21}}} & a_ {22} &\cdots &a_ {2n}\\ \color {Red} {\vdots} & \vdots & \cdots & \vdots\\ \not {\color{Red} {a_{n1}}} & a_ {n2} &\cdots &a_ {nn} \end {bmatrix}= \begin{bmatrix} a_{21} & \cdots & a_{2n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \cdots & a_{nn} \end{bmatrix}_{(n-1)\times (n-1)} $$
同时,我们称 $(-1)^{(i+j)}M_{ij}$为元素 $a_{ij}$的代数余子式,记为 $A_{ij}$。
推而广之,子式也有其对应的代数余子式:考虑 $\boldsymbol{A}_{m\times n}$的一个子式 $\boldsymbol{B}_{r\times s}$,行、列的选法分别为 $\boldsymbol{I},\boldsymbol{J}$,则 $\boldsymbol{B}$的代数余子式为:
$$ (-1)^{\sum\limits_{i\in \boldsymbol{I}}i+\sum\limits_{j\in \boldsymbol{J}}j}M_{\boldsymbol{I}\boldsymbol{J}} $$
定义 1.6.2.3:行列式值的定义
(事实上关于行列式函数值的定义涉及复杂的排列和逆序数,我这里为了简化就直接将一个定理作为定义了...很不严谨,看看就好)
行列式函数值的定义为:按任意一行或列展开所得的值。特别地, $|a|=a$。(递归大法好)即:
$$ \det{\boldsymbol{A}}\overset{\underset{\mathrm{def}}{}}{=}\sum\limits_{j=1}^n a_{ij}A_{ij}=\sum\limits_{j=1}^n a_{ij}(-1)^{(i+j)}\det{\boldsymbol{A}_{ij}} $$
其中 $\boldsymbol{A}_{ij}$为去掉第 $i$行与第 $j$列所剩的矩阵。当然,按某一列展开也可以:
$$ \det{\boldsymbol{A}}\overset{\underset{\mathrm{def}}{}}{=}\sum\limits_{i=1}^n a_{ij}A_{ij}=\sum\limits_{i=1}^n a_{ij}(-1)^{(i+j)}\det{\boldsymbol{A}_{ij}} $$
特别地,单位阵的行列式 $\det{\boldsymbol{I}}=1$;三角矩阵(包括对角矩阵)的行列式的值为其主对角线上所有元素的积。
定义 1.6.2.4:Laplace 展开定理
在$n$阶行列式 $\det \boldsymbol{A}$任取 $k$行(列)($1\le k\le n$),则:
$$ \det \boldsymbol{A}=该 k 行/列上\color{Red}{全部 k 阶子式(共\mathrm{C}_n^k 个)}与\color{Blue}{对应的代数余子式}乘积之和 $$
定义 1.6.2.5:行列式的初等变换
类似矩阵的初等变换,行列式也有三种初等变换:
(1)调换:调换 $\det\boldsymbol{A}$的某两行(列),行列式的值相反;
(2)倍乘:$\det\boldsymbol{A}$某一行(列)乘上一个非零的数 $a$,行列式的值也乘上 $a$;
(3)倍加:$\det\boldsymbol{A}$某一行(列)乘上一个非零的数 $b$加到另一行(列),行列式的值不变;
我们还有如下推论:
(推论 1)行列式可分解:
$$ \begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \cdots & \vdots \\ b_{i1}+c_{i1} & \cdots & b_{in}+c_{in} \\ \vdots & \cdots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix} =\begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \cdots & \vdots \\ b_{i1} & \cdots & b_{in} \\ \vdots & \cdots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix}+ \begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \cdots & \vdots \\c_{i1} & \cdots & c_{in} \\ \vdots & \cdots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix} $$
(推论 2)若行列式某一行(列)全为 0,或某两行(列)成比例(包括相等),则行列式的值为 0。
(推论 3)设数 $c\in\mathbb{C}$,则 $\det{c\boldsymbol{A}}=c^n\det A$。
定义 1.6.2.6:矩阵乘积的行列式与行列平等
我们首先证明一个重要的定理:矩阵相乘的行列式等于其行列式的乘积。设 $\boldsymbol{A},\boldsymbol{B}\in\mathbb{C}^{n\times n}$,则
$$ \det{\boldsymbol{A}\boldsymbol{B}}=\det{\boldsymbol{A}}\det{\boldsymbol{B}} $$
证明过程见:证明
上述定理告诉我们,行列式对于行所具有的性质,对于列也具有。可以通过类似的方法证明:
$$ \det{\boldsymbol{A}}=\det{\boldsymbol{A}^\top} $$
但是:$\det(\boldsymbol{A}^H)=\overline{\det{(\boldsymbol{A}^\top)}}$
同时我们还有推论:若$\boldsymbol{A}$非奇异(可逆),则:$\det{(\boldsymbol{A}^{-1})}=\frac{1}{\det\boldsymbol{A}}$
定理 1.6.2.1:关于行列式的其他定理
下面我们介绍其他关于行列式的定理、等式与不等式。
(0)对矩阵 $\boldsymbol{A}_{n\times n}$,则 $\boldsymbol{A}$可逆当且仅当 $\det \boldsymbol{A}\neq 0$。
(1)考虑分块矩阵 $\boldsymbol{A}_{m\times m},\boldsymbol{B}_{m\times n},\boldsymbol{C}_{n\times m},\boldsymbol{D}_{n\times n}$,则:
$$ \boldsymbol{A}非奇异\Leftrightarrow \det{ \begin{bmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} &\boldsymbol{D} \end{bmatrix}}=\det{\boldsymbol{A}}\det{(\boldsymbol{D}-\boldsymbol{C}\boldsymbol{A}^{-1}\boldsymbol{B})} \\ \boldsymbol{D}非奇异\Leftrightarrow \det{ \begin{bmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} &\boldsymbol{D} \end{bmatrix}}=\det{\boldsymbol{D}}\det{(\boldsymbol{A}-\boldsymbol{B}\boldsymbol{D}^{-1}\boldsymbol{C})} $$
(2)Cauchy-Schwartz:若 $\boldsymbol{A},\boldsymbol{B}\in \mathbb{C}^{m\times n}$,则:
$$ |\det{(\boldsymbol{A}^H\boldsymbol{B})}^2|\le \det{(\boldsymbol{A}^H\boldsymbol{A})}\det{(\boldsymbol{B}^H\boldsymbol{B})} $$
(3)Hadamard:若 $\boldsymbol{A}\in \mathbb{C}^{n\times n}$,则:
$$ (\det\boldsymbol{A})^2\le \prod\limits_{i=1}^n (\sum\limits_{j=1}^n |a_{ij}^2|) $$
其中等式成立的充要条件为 $\boldsymbol{A}$或包含全零行,或行向量间两两正交。证明参考:阿达玛(Hadamard)不等式的证明及几何意义
(4)Fischer:设有矩阵 $\boldsymbol{A}_{m\times m},\boldsymbol{B}_{m\times n},\boldsymbol{C}_{n\times n}$,则:
$$ \det{ \begin{bmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{B}^H & \boldsymbol{C} \end{bmatrix} }\le \det\boldsymbol{A}\det\boldsymbol{C} $$
(5)矩阵的正定性与奇异性
- 正定矩阵、半正定矩阵的行列式分别严格大于零、大于等于零;
- 若 $\boldsymbol{A}$半正定,则 $(\det\boldsymbol{A})^{1/m}\le \frac{1}{m}\det\boldsymbol{A}$;
- 若 $\boldsymbol{A},\boldsymbol{B}$均半正定,则:$\det{(\boldsymbol{A}+\boldsymbol{B})}\ge\det\boldsymbol{A}+\det\boldsymbol{B}$
6.3:矩阵的核心指标:特征值
定义 1.6.3.1:特征值
考虑 $\mathbb{C}^{n\times n}$上的线性变换 $\mathscr{A}$,其对应的矩阵为 $\boldsymbol{A}$。若存在非零向量 $\boldsymbol{\alpha}\in\mathbb{C}^{n\times 1}$以及数 $\lambda\in\mathbb{C}$,满足:
$$ \boldsymbol{A}\boldsymbol{\alpha}=\lambda\boldsymbol{\alpha} $$
则称 $\lambda$为 $\boldsymbol{A}$的一个特征值,$\boldsymbol{\alpha}$为 $\boldsymbol{A}$相对于 $\lambda$的特征向量。通常记 $\boldsymbol{A}$的特征值为 $\text{eig}(\boldsymbol{A})$。
定义 1.6.3.2:特征值的第二定义
设矩阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}$,则多项式 $\phi(\lambda)=\det{(\lambda\boldsymbol{I}-\boldsymbol{A})}$称为 $\boldsymbol{A}$的特征多项式,特征多项式的根称为 $\boldsymbol{A}$的特征值。
我们有如下的推论:
- 若 0 是矩阵 $\boldsymbol{A}$的一个特征值,则根据特征多项式有 $\det{\boldsymbol{A}}=0$,这说明若 0 是矩阵 $\boldsymbol{A}$的一个特征值则 $\boldsymbol{A}$奇异。
- 只有零矩阵的特征值全为零,任何非零矩阵一定存在非零的特征值。若一矩阵所有特征值都不为零,则他是非奇异的。
- 任何矩阵的所有对角元素减去其特征值,得到的矩阵是奇异的。
定理 1.6.3.1:特征值的性质
- $\text{eig}(\boldsymbol{AB})=\text{eig}(\boldsymbol{BA})$;
- $\boldsymbol{A}$至多有 $\text{rank}(\boldsymbol{A})$ 个特征值;
- 若 $\boldsymbol{A}$可逆,则:$\text{eig}(\boldsymbol{A}^{-1})=1/\text{eig}(\boldsymbol{A})$
- $\text{eig}(\boldsymbol{I}+c\boldsymbol{A})=1+c\cdot\text{eig}(\boldsymbol{A})$
定理 1.6.3.2:特征值与正定性
我们可以证明:正定矩阵的所有特征值均为正实数。相应地,我们可以对其进行推广并给出正定性的第二定义:若 $\boldsymbol{A}$的特征值分别全为正、全非负、全为负、全非正,则依次称 $\boldsymbol{A}$ 为正定的,半正定的,负定的,半负定的。
定理 1.6.3.3:特征值与行列式
我们可以证明:行列式的值为所有特征值之积,也即 $\det{(\boldsymbol{A})}=\prod\limits_{i=1}^n \lambda_i$
6.4:特征值之和:矩阵的迹
定义 1.6.4.1:迹的定义
对矩阵 $\boldsymbol{A}=(a_{ij})_{n\times n}$,它的所有对角元素之和定义为它的迹,记为 $tr(\boldsymbol{A})$,即:
$$ tr(\boldsymbol{A})\overset{\underset{\mathrm{def}}{}}{=}\sum\limits_{i=1}^n a_{ii} $$
定理 1.6.4.1:有关迹的重要性质与定理
(1)设有 $\boldsymbol{A}_{n\times n},\boldsymbol{B}_{n\times n}$,常数 $c_1,c_2$,则 $tr(c_1\boldsymbol{A}\pm c_2\boldsymbol{B})=c_1 tr(\boldsymbol{A})\pm c_2 tr(\boldsymbol{B})$
(2)$tr(\boldsymbol{A}^\top)=tr(\boldsymbol{A})$,$tr(\overline{\boldsymbol{A}})=\overline{tr(\boldsymbol{A})}$
(3)$\boldsymbol{A}_{m\times n},\boldsymbol{B}_{n\times m}$,则 $tr(\boldsymbol{AB})=tr(\boldsymbol{BA})$,证明
(4)矩阵的迹为矩阵所有特征值之和:$tr(\boldsymbol{A})=\sum\limits_{i=1}^n \lambda_i$,证明
(5)$tr(\boldsymbol{A}\boldsymbol{A}^H)=tr(\boldsymbol{A}^H\boldsymbol{A})\geq 0$
(6)Schur:$tr(\boldsymbol{A}^2)\leq tr(\boldsymbol{A}^T\boldsymbol{A})$
(7)Cauchy-Schwartz:若 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{m\times n}$,$tr[(\boldsymbol{A}^\top\boldsymbol{B})]\leq tr(\boldsymbol{A}^\top\boldsymbol{A})tr(\boldsymbol{B}^\top\boldsymbol{B})$
(8)$tr[(\boldsymbol{A+B})(\boldsymbol{A+B})^\top]\leq 2[tr(\boldsymbol{A}\boldsymbol{A}^\top)+tr(\boldsymbol{B}\boldsymbol{B}^\top)]$
(9)对 $k\in\mathbb{R},\ k\geq 0$,有:$tr(\boldsymbol{A}^k)=\sum\limits_{i=1}^n \lambda_i^k$,证明
根据上述的定理我们可以推广得到许多有用的引理。比如:
$$ tr(\boldsymbol{A}\boldsymbol{A}^H)=tr(\boldsymbol{A}^H\boldsymbol{A})=\sum\limits_{i=1}^n \sum\limits_{j=1}^n |a_{ij}|^2=||\boldsymbol{A}||_F $$
又如在等式 $tr(\boldsymbol{AB})=tr(\boldsymbol{BA})$中,可推广得到:
$$ tr(\boldsymbol{ABC})=tr(\boldsymbol{BCA})=tr(\boldsymbol{CAB}) $$
特别地,若 $\boldsymbol{B}$非奇异,则:
$$ tr(\boldsymbol{BAB}^{-1})=tr(\boldsymbol{A}) $$
6.5:线性相关性的刻画:矩阵的秩
在介绍矩阵的秩之前,我们先介绍一个极其重要的概念:线性相关。
定义 1.6.5.1:线性组合
设有向量空间 $\mathbb{F}^n$,其中一组向量 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m$,以及 $\boldsymbol{F}$上的常数 $\lambda_1,\cdots,\lambda_m$,我们称:
$$ \boldsymbol{b}=\lambda_1 \boldsymbol{a}_1+\cdots +\lambda_m \boldsymbol{a}_m $$
为这组向量(或叫向量组)$\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m \}$的线性组合,或者说 $\boldsymbol{b}$可由 $\boldsymbol{S}$线性表出。
定义 1.6.5.2:向量组的线性相关
考虑向量组 $\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m|\boldsymbol{a}_i\in\mathbb{F}^n \}$,如果存在 $m$个不全为零的数 $\lambda_1,\cdots,\lambda_m$,使得: $\lambda_1\boldsymbol{a}_1+\cdots+\lambda_m \boldsymbol{a}_m=\boldsymbol{0}$,则称这个向量组线性相关。
反过来如果向量组线性无关,$\sum \lambda_i \boldsymbol{a}_i=\boldsymbol{0}$仅当 $\lambda_i=0$。
根据定义我们可以得到如下推论:
(1)含有零向量的向量组一定线性相关;
(2)若一个向量组的某个子集是线性相关的,则它是线性相关的;
(3)线性无关的向量组所有子集都是线性无关的。
(4)对 $\boldsymbol{S}=\{\boldsymbol{a}\}$,若 $\boldsymbol{a}=\boldsymbol{0}$,则 $\boldsymbol{S}$线性相关,反之则线性无关。
定理 1.6.5.1:线性相关与线性表出
以下命题等价:
(1)向量组 $\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m \}$线性相关;
(2)存在某个向量 $\boldsymbol{a}_i$可由 $\boldsymbol{S}-\{\boldsymbol{a}_i\}$线性表出;
(3)存在某个向量 $\boldsymbol{a}_k,\ 2\leq k \leq m$使得向量 $\boldsymbol{a}_k$是它前面 $k-1$个向量 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_{k-1}$的线性组合。
证明是显然的。
定义 1.6.5.3:向量组等价
对于 $\mathbb{F}^n$上的两个向量组 $\boldsymbol{S}$与 $\boldsymbol{T}$,若 $\boldsymbol{S}$中的每个向量都可以由 $\boldsymbol{T}$线性表出,且 $\boldsymbol{T}$中的每个向量都可以由 $\boldsymbol{S}$线性表出,则称这两个向量组等价。显然地,向量组间的等价是一个等价关系。
定理 1.6.5.2:Steinitz 替换定理
设一线性无关的向量组 $\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s\}$可以由 $\boldsymbol{T}=\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t\}$线性表出,则 $s\leq t$,且用 $\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s$替换 $\boldsymbol{T}$中的某 $s$个向量(不妨设前 $s$个)后,$\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s,\boldsymbol{b}_{s+1},\cdots,\boldsymbol{b}_t$与 $\boldsymbol{T}$等价。证明
我们由上述定理可以得到一个直接推论:若两个线性无关的向量组 $\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_s\}$与 $\boldsymbol{T}=\{\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t\}$是等价的,则 $s=t$。
定义 1.6.5.4:极大线性无关向量组
设一向量组$\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m|\boldsymbol{a}_i\in\mathbb{F}^n \}$,对于 $\boldsymbol{S}$中的若干向量 $\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t$是线性无关的,并且对任意 $\boldsymbol{b}\in\boldsymbol{S}$,$\color{Red}{\boldsymbol{b}},\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t$是线性相关的,也即 $\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t$能够线性表出 $\boldsymbol{S}$中的任何一个向量,则称 $\boldsymbol{b}_1,\cdots,\boldsymbol{b}_t$为 $\boldsymbol{S}$ 的极大线性无关向量组,简称极大无关组。
定理 1.6.5.3:极大无关组的性质
设一向量组$\boldsymbol{S}=\{\boldsymbol{a}_1,\cdots,\boldsymbol{a}_m|\boldsymbol{a}_i\in\mathbb{F}^n \}$,他的任意一个极大无关组都与 $\boldsymbol{S}$等价;且 $\boldsymbol{S}$的任意两个极大无关组包含的向量个数相同,称为 $\boldsymbol{S}$的秩,记为 $\text{rank}(\boldsymbol{S})$或 $\text{R}(\boldsymbol{S})$。证明
对于一个矩阵,可以看做由若干行向量或列向量组成的向量组,因此我们可以自然地引入矩阵的秩的概念。
定义 1.6.5.5:矩阵的秩
设有一矩阵 $\boldsymbol{A}_{m\times n}\in\mathbb{F}^{m\times n}$,若将其看做 $m$个行向量的集合,则该行向量组的秩称为行秩;若将其看做 $n$个列向量的集合,则该列向量组的秩称为列秩。
可以证明,一个矩阵的行秩与列秩是相等的,统称为矩阵的秩。
定义 1.6.5.6:矩阵秩的第二定义
对于矩阵的秩,有如下的等价定义:矩阵 $\boldsymbol{A}_{m\times n}$的所有非零子式的最高阶数称为矩阵 $\boldsymbol{A}$的秩。
我们可以证明,上述基于非零子式的定义与基于极大无关组的定义是等价的。
显然地,对于矩阵 $\boldsymbol{A}_{m\times n}$,$\text{rank}(\boldsymbol{A})\leq \min{\{m,n\}}$。若 $\text{rank}(\boldsymbol{A})< \min{\{m,n\}}$,则称 $\boldsymbol{A}$是秩亏缺的;若 $\text{rank}(\boldsymbol{A})=m(<n)$,则称 $\boldsymbol{A}$是行满秩的;若 $\text{rank}(\boldsymbol{A})=n(<m)$,则称 $\boldsymbol{A}$是列满秩的。特别地,若 $m=n$且 $\text{rank}(\boldsymbol{A})=n$,则称 $\boldsymbol{A}$是满秩的。
定理 1.6.5.4:矩阵秩的性质与重要定理
(1)设有矩阵 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{n\times p}$,则 $\boldsymbol{A}$与 $\boldsymbol{B}$的乘积满足:$\text{rank}(\boldsymbol{AB})\leq \min \{\text{rank}(\boldsymbol{A}),\text{rank}(\boldsymbol{B})\}$,证明
上述定理有更常用的形式:$\text{rank}(\boldsymbol{AB})\leq \text{rank}(\boldsymbol{A})$,且$\text{rank}(\boldsymbol{AB})\leq \text{rank}(\boldsymbol{B})$。
(2)设矩阵 $\boldsymbol{A}_{m\times n}$,若 $\boldsymbol{P},\boldsymbol{Q}$分别为 $m,n$阶可逆矩阵,则:
$$ \text{rank}(\boldsymbol{PAQ})=\text{rank}(\boldsymbol{PA})=\text{rank}(\boldsymbol{AQ})=\text{rank}(\boldsymbol{A}) $$
该定理可以由(1)直接得到,证明就不展开了。
(3)矩阵的初等变换不改变矩阵的秩
考虑矩阵初等变换的变换矩阵,结合(2)显然可得。
(4)设 $\text{rank}(\boldsymbol{A}_{m\times n})=r$,则 $\boldsymbol{A}$可以经过有限次初等变换化为如下形式:
$$ \begin{bmatrix} \boldsymbol{I}_r & \boldsymbol{O}_{r\times (n-r)} \\ \boldsymbol{O}_{(m-r)\times r}&\boldsymbol{O}_{(m-r)\times (n-r)} \end{bmatrix}_{m\times n} $$
(5)设有方阵 $\boldsymbol{A}_{n\times n}$,则 $\boldsymbol{A}$满秩当且仅当 $\boldsymbol{A}$可逆,证明
(6)
$$ \begin{align}\text{rank}\left( \begin{bmatrix} \boldsymbol{A}&\boldsymbol{O} \\ \boldsymbol{O}&\boldsymbol{B} \end{bmatrix}\right)&=\text{rank}(\boldsymbol{A})+\text{rank}(\boldsymbol{B})\\ \text{rank}\left( \begin{bmatrix} \boldsymbol{A}&\boldsymbol{C} \\ \boldsymbol{O}&\boldsymbol{B} \end{bmatrix}\right)&\geq \text{rank}(\boldsymbol{A})+\text{rank}(\boldsymbol{B}) \end{align} $$
(7)$\text{rank}(\boldsymbol{A}\pm \boldsymbol{B})\leq \text{rank}(\boldsymbol{A})+\text{rank}(\boldsymbol{B})$
(8)设 $\boldsymbol{A}\in\mathbb{C}^{m\times n}$,则 $\text{rank}(\boldsymbol{A}^H)=\text{rank}(\boldsymbol{A}^\top)=\text{rank}(\boldsymbol{A})$,并且 $\text{rank}(\boldsymbol{AA}^H)=\text{rank}(\boldsymbol{A})$
(9)若 $\boldsymbol{A}_{n\times n}$为 $n$阶幂等矩阵,即 $\boldsymbol{A}^2=\boldsymbol{A}$,则有 $\text{rank}(\boldsymbol{A})=tr(\boldsymbol{A})$,证明
(10)Frobenius:设有矩阵 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{n\times p},\boldsymbol{C}_{p\times q}$,则:
$$ \text{rank}(\boldsymbol{ABC})\geq \text{rank}(\boldsymbol{AB})+\text{rank}(\boldsymbol{BC})-\text{rank}(\boldsymbol{B}) $$
其中等号成立的充要条件是:$\left[\begin{matrix}\boldsymbol{AB}& \boldsymbol{O}\\ \boldsymbol{O}& \boldsymbol{BC}\end{matrix}\right]$与$\left[\begin{matrix}\boldsymbol{AB}& \boldsymbol{O}\\ \boldsymbol{B}& \boldsymbol{BC}\end{matrix}\right]$相抵。
特别地,取 $\boldsymbol{B}=\boldsymbol{I}_n$,有如下定理:
(11)Sylvester:设有矩阵 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{n\times p}$,则$\text{rank}(\boldsymbol{AB})\geq \text{rank}(\boldsymbol{A})+\text{rank}(\boldsymbol{B})-n$
7、逆矩阵
在之前的章节中,我们零零碎碎介绍了很多关于逆矩阵的东西,我们在这一章里集中整理一下。
定理 1.7.1:逆矩阵的刻画
设有方阵 $\boldsymbol{A}_{n\times n}$,则以下命题等价:
(1)$\boldsymbol{A}$非奇异,即 $\boldsymbol{A}^{-1}$存在;
(2)$\text{rank}(\boldsymbol{A})=n$;
(3)$\boldsymbol{A}$的行组、列组分别线性无关;
(4)$\det{\boldsymbol{A}}\neq 0$;
(5)$\boldsymbol{Ax}=\boldsymbol{b}$对每个 $\boldsymbol{b}$有唯一解;
(6)$\boldsymbol{Ax}=\boldsymbol{0}$只有零解;
(7)$\boldsymbol{A}$与 $\boldsymbol{I}$相抵。
定理 1.7.2:逆矩阵的性质
设有可逆方阵 $\boldsymbol{A}$,其逆矩阵为 $\boldsymbol{A}^{-1}$,则:
(1)$\boldsymbol{AA}^{-1}=\boldsymbol{A}^{-1}\boldsymbol{A}=\boldsymbol{I}$;
(2)$\boldsymbol{A}^{-1}$是唯一的;
(3)$\det(\boldsymbol{A}^{-1})=\frac{1}{\det \boldsymbol{A}}$;
(4)$(\boldsymbol{A}^H)^{-1}=(\boldsymbol{A}^{-1})^H$;
(5)若另一方阵 $\boldsymbol{B}_{n\times n}$也可逆,则:$\boldsymbol{AB}=\boldsymbol{B}^{-1}\boldsymbol{A}^{-1}$;
(6)若 $\boldsymbol{A}$为一对角矩阵,即$\boldsymbol{A}=\text{diag}(a_1,\cdots,a_n)$,则有 $\boldsymbol{A}^{-1}=\text{diag}(a_1^{-1},\cdots,a_n^{-1})$
定理 1.7.3:矩阵的求逆公式
下面介绍几个矩阵的求逆公式
(1)Sherman-Morrison:设有一可逆矩阵 $\boldsymbol{A}_{n\times n}$,且 $\boldsymbol{x},\boldsymbol{y}$是两个 $n\times 1$向量使得 $(\boldsymbol{A}+\boldsymbol{xy}^H)$可逆,则有:
$$ (\boldsymbol{A}+\boldsymbol{xy}^H)^{-1}=\boldsymbol{A}^{-1}-\frac{\boldsymbol{A}^{-1}\boldsymbol{xy}^H\boldsymbol{A}^{-1}}{1+\boldsymbol{y}^H\boldsymbol{A}^{-1}\boldsymbol{x}} $$
证明见教材 56 页,这里就不展开了。
(2)Woodbury:设 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{C},\boldsymbol{D}$均为 $n$阶可逆矩阵,则:
$$ (\boldsymbol{A}+\boldsymbol{BCD})^{-1}=\boldsymbol{A}^{-1}-\boldsymbol{A}^{-1}\boldsymbol{B}(\boldsymbol{C}^{-1}+\boldsymbol{DA}^{-1}\boldsymbol{B})\boldsymbol{DA}^{-1} $$
这个定理的证明可以执果索因,设有方程 $(\boldsymbol{A}+\boldsymbol{BCD})^{-1}=\boldsymbol{A}^{-1}+\boldsymbol{X}$,求解 $\boldsymbol{X}$,之后就是简单的变换了。Woodbury 求逆公式也被称作矩阵求逆引理。
8、广义逆矩阵
8.1:左伪逆矩阵与右伪逆矩阵
我们知道,矩阵的逆是对于方阵而言的,现在我们将这一概念推广到长方形矩阵上。首先我们引入左逆矩阵与右逆矩阵的概念。
定义 1.8.1.1:左逆矩阵与右逆矩阵
设有矩阵 $\boldsymbol{A}_{m\times n}$我们称满足 $\boldsymbol{LA}=\boldsymbol{I}$但不满足 $\boldsymbol{AL}=\boldsymbol{I}$的矩阵 $\boldsymbol{L}$为 $\boldsymbol{A}$的左逆矩阵;称满足 $\boldsymbol{AR}=\boldsymbol{I}$但不满足 $\boldsymbol{RA}=\boldsymbol{I}$的矩阵 $\boldsymbol{R}$为 $\boldsymbol{A}$ 的右逆矩阵。
我们知道,
- 仅当 $m\geq n$时,$\boldsymbol{A}$存在左逆矩阵;
- 仅当 $n \geq m$时,$\boldsymbol{A}$存在右逆矩阵。
特别地,当 $m>n$且 $\boldsymbol{A}$列满秩时,$\boldsymbol{A}$有唯一的左逆矩阵 $\boldsymbol{L}=(\boldsymbol{A}^H\boldsymbol{A})^{-1}\boldsymbol{A}^H$;当 $m<n$且 $\boldsymbol{A}$行满秩时,$\boldsymbol{A}$有唯一的右逆矩阵 $\boldsymbol{R}=\boldsymbol{A}^H(\boldsymbol{AA}^H)^{-1}$。
8.2:Moore-Penrose 广义逆矩阵
我们在 8.1 节介绍了行满秩矩阵的右伪逆矩阵和列满秩矩阵的左伪逆矩阵,那么秩亏缺矩阵是否也有类似定义呢?为了区别广义逆矩阵与一般的逆矩阵,我们引入记号:$\boldsymbol{A}^\dagger$。
定义 1.8.2.1:Moore-Penrose 广义逆矩阵的定义
设有矩阵 $\boldsymbol{A}_{m\times n}$,现有如下四个条件:
(1)$\boldsymbol{AA}^\dagger\boldsymbol{A}=\boldsymbol{A}$;
(2)$\boldsymbol{A}^\dagger\boldsymbol{AA}^\dagger=\boldsymbol{A}^\dagger$;
(3)$\boldsymbol{AA}^\dagger$是 Hermitian 矩阵,即 $\boldsymbol{AA}^\dagger=(\boldsymbol{AA}^\dagger)^H$;
(4)$\boldsymbol{A}^\dagger\boldsymbol{A}$是 Hermitian 矩阵,即 $\boldsymbol{A}^\dagger\boldsymbol{A}=(\boldsymbol{A}^\dagger\boldsymbol{A})^H$。
我们称:
- 满足全部四个条件的为 $\boldsymbol{A}$的(Moore-Penrose)广义逆矩阵;
- 满足 1、2 的为 $\boldsymbol{A}$的自反广义逆矩阵;
- 满足 1、2、3 的为 $\boldsymbol{A}$的正规化广义逆矩阵
- 满足 1、2、4 的为 $\boldsymbol{A}$的弱广义逆矩阵。
任意矩阵 $\boldsymbol{A}_{m\times n}$的广义逆矩阵可以如下确定:
$$ \boldsymbol{A}^\dagger= \begin{cases} (\boldsymbol{A}^H\boldsymbol{A})^\dagger\boldsymbol{A}^H, & \mbox{if }m\geq n \\ \boldsymbol{A}^H(\boldsymbol{AA}^H)^\dagger, & \mbox{if }m\leq n \end{cases} $$
那么显然容易看出满秩矩阵的逆矩阵、行满秩矩阵的右伪逆矩阵、列满秩矩阵的左伪逆矩阵均为原矩阵的 Moore-Penrose 广义逆矩阵。
9、矩阵的直和与 Hadamard 积
9.1:矩阵的直和
定义 1.9.1.1:矩阵直和的定义
设有两个方阵 $\boldsymbol{A}_{m\times m},\boldsymbol{B}_{n\times n}$,则其直和记为 $\boldsymbol{A}\oplus \boldsymbol{B}$,定义为:
$$ \boldsymbol{A}\oplus\boldsymbol{B}\overset{\underset{\mathrm{def}}{}}{=} \begin{bmatrix} \boldsymbol{A}_{m\times m} & \boldsymbol{O}_{m\times n}\\ \boldsymbol{O}_{n\times m}&\boldsymbol{B}_{n\times n} \end{bmatrix}_{(m+n)\times (m+n)} $$
定理 1.9.1.1:矩阵直和的性质
(1)设有数 $c$,则 $c(\boldsymbol{A}\oplus\boldsymbol{B})=c\boldsymbol{A}\oplus c\boldsymbol{B}$
(2)$\boldsymbol{A}\oplus\boldsymbol{B}=\boldsymbol{B}\oplus\boldsymbol{A}\Leftrightarrow \boldsymbol{A}=\boldsymbol{B}$
(3)设 $\boldsymbol{A},\boldsymbol{B}\in\mathbb{F}^{m\times m}$而 $\boldsymbol{C},\boldsymbol{D}\in\mathbb{F}^{n\times n}$,则:
$$ \begin{align}(\boldsymbol{A}\pm \boldsymbol{B})\oplus (\boldsymbol{C}\pm \boldsymbol{D})=(\boldsymbol{A}\oplus\boldsymbol{C})\pm (\boldsymbol{B}+\boldsymbol{D})\\ (\boldsymbol{A}\oplus\boldsymbol{C})(\boldsymbol{B}+\boldsymbol{D})=\boldsymbol{AB}\oplus\boldsymbol{CD} \end{align} $$
(4)$(\boldsymbol{A}\oplus\boldsymbol{B})^H=\boldsymbol{A}^H\oplus \boldsymbol{B}^H$
(5)若 $\boldsymbol{A},\boldsymbol{B}$均可逆,则 $(\boldsymbol{A}\oplus\boldsymbol{B})^{-1}=\boldsymbol{A}^{-1}\oplus \boldsymbol{B}^{-1}$
(6)
$$ \begin{align} tr\left(\bigoplus_{i=1}^N \boldsymbol{A}_i\right)&=\sum\limits_{i=1}^N tr(\boldsymbol{A}_i)\\ \text{rank}\left(\bigoplus_{i=1}^N \boldsymbol{A}_i\right)&=\sum\limits_{i=1}^N \text{rank}(\boldsymbol{A}_i)\\ \det{\left(\bigoplus_{i=1}^N \boldsymbol{A}_i\right)}&=\prod\limits_{i=1}^N \det \boldsymbol{A}_i \end{align} $$
9.2:矩阵的 Hadamard 积
定义 1.9.2.1:Hadamard 积的定义
设有两个矩阵 $\boldsymbol{A},\boldsymbol{B}\in\mathbb{m\times n}$,二者的 Hadamard 积记为 $\boldsymbol{A}\circ\boldsymbol{B}$(或 $\boldsymbol{A}*\boldsymbol{B}$),其元素定义为两个元素对应位置的乘积,即:
$$ \boldsymbol{A}\circ\boldsymbol{B}\overset{\underset{\mathrm{def}}{}}{=}[a_{ij}\cdot b_{ij}]_{m\times n} $$
定理 1.9.2.1:有关 Hadamard 积的重要性质与定理
(1)设有矩阵 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{m\times n}$,则:
$$ (\boldsymbol{A}\circ\boldsymbol{B})^\top=\boldsymbol{A}^\top\circ\boldsymbol{B}^\top,\ (\boldsymbol{A}\circ\boldsymbol{B})^H=\boldsymbol{A}^H\circ\boldsymbol{B}^H,\ \overline{(\boldsymbol{A}\circ\boldsymbol{B})}=\overline{\boldsymbol{A}}\circ\overline{\boldsymbol{B}} $$
(2)正定性:正定(半正定)矩阵 $\boldsymbol{A},\boldsymbol{B}$的 Hadamard 积 $\boldsymbol{A}\circ\boldsymbol{B}$也是正定(半正定)的
(3)Oppenheim:设有半正定矩阵 $\boldsymbol{A}_{n\times n},\boldsymbol{B}_{n\times n}$,则:
$$ \det{(\boldsymbol{A}\circ\boldsymbol{B})}\geq \prod\limits_{i=1}^n a_{ii} \det{(\boldsymbol{B})} $$
(4)设有半正定矩阵 $\boldsymbol{A}_{n\times n},\boldsymbol{B}_{n\times n}$,则:
$$ \det{(\boldsymbol{A}\circ\boldsymbol{B})}\geq\det{(\boldsymbol{AB})} $$
(5)$\text{rank}(\boldsymbol{A}\circ\boldsymbol{B})\leq\text{rank}(\boldsymbol{A})\text{rank}(\boldsymbol{B})$
10、正交矩阵与酉矩阵
定义 1.10.1:标准正交组
设在 $\mathbb{C}^n$上有一向量组 $\{\boldsymbol{x}_i\}_{i=1}^k$,若 $\forall i,j\in\boldsymbol{N}_k,i\neq j$,有 $\boldsymbol{x}_i^H\boldsymbol{x}_j=0$,则称该向量组为一正交(向量)组。同时若其还是归一化的,也即 $\forall i \in \boldsymbol{N}_k,||\boldsymbol{x}_i||^2_2=1$,则称其为标准正交组。考虑 Kronecker 记号:
$$ \delta (i-j)= \begin{cases} 1,&\ i=j\\ 0,&\ i\neq j \end{cases} $$
则标准正交组即:$\boldsymbol{x}_i^H\boldsymbol{x}_j=\delta (i-j)$
定理 1.10.1:正交组线性无关
设一正交组 $\{\boldsymbol{x}_i\}$,则它是线性无关的,证略。
定义 1.10.2:正交矩阵与酉矩阵
设有一实方阵 $\boldsymbol{Q}\in\mathbb{R}^{n\times n}$,若:
$$ \boldsymbol{QQ}^\top=\boldsymbol{Q}^\top\boldsymbol{Q}=\boldsymbol{I}_n $$
则称其为一正交矩阵。推而广之,设有一复方阵 $\boldsymbol{U}\in\mathbb{C}^{n\times n}$,若:
$$ \boldsymbol{UU}^H=\boldsymbol{U}^H\boldsymbol{U}=\boldsymbol{I}_n $$
则称其为一酉矩阵。由于正交矩阵事实上就是实的酉矩阵,所以接下来我们只讨论酉矩阵。
定理 1.10.2:酉矩阵的刻画
设一复方阵 $\boldsymbol{U}_{n\times n}$,则以下命题等价:
(1)$\boldsymbol{U}$是酉矩阵;
(2)$\boldsymbol{UU}^H=\boldsymbol{U}^H\boldsymbol{U}=\boldsymbol{I}$
(3)$\boldsymbol{U}^{-1}$(或 $\boldsymbol{U}^\top,\boldsymbol{U}^H,\overline{\boldsymbol{U}},\boldsymbol{U}^i$)是酉矩阵;
(4)$\boldsymbol{U}$的行组(或列组)是一标准正交组。
定理 1.10.3:酉变换及其不变性
对于所有的 $\boldsymbol{x}\in\mathbb{C}^n$,设有一酉矩阵 $\boldsymbol{U}$,考察 $\boldsymbol{y}=\boldsymbol{Ux}$,则 $||\boldsymbol{y}||_2^2=\boldsymbol{y}^H\boldsymbol{y}=(\boldsymbol{Ux})^H\boldsymbol{Ux}=\boldsymbol{x}^H\boldsymbol{x}=||\boldsymbol{x}||^2_2$。这启示我们若将 $\boldsymbol{U}$看做是线性变换 $\mathscr{A}$的对应矩阵,则 $\mathscr{A}$称为酉变换,它具有如下性质:
(1)向量内积在酉变换下不变,即:
$$ <\boldsymbol{x},\boldsymbol{y}>=<\mathscr{A}(\boldsymbol{x}),\mathscr{A}(\boldsymbol{y})> $$
(2)向量范数在酉变换下不变,即:
$$ ||\mathscr{A}(\boldsymbol{x})||^2_2=||\boldsymbol{x}||^2_2 $$
将以上两个结论推广,则可知两个向量的夹角在酉变换下也是不变的。
(3)矩阵的 Frobenius 范数在酉变换下不变,即:
$$ ||\mathscr{A}(\boldsymbol{B})||^2_F=||\boldsymbol{B}||^2_F,\boldsymbol{B}\in\mathbb{C}^{n\times n} $$
11、矩阵的相似与相合
11.1:矩阵相似
设有复矩阵 $\boldsymbol{S},\boldsymbol{A}\in\mathbb{C}^{n\times n}$,其中 $\boldsymbol{S}$是非奇异的。考察对于 $\boldsymbol{A}$的线性变换:
$$ \boldsymbol{B}=\boldsymbol{S}^{-1}\boldsymbol{AS} $$
设 $\boldsymbol{B}$的一特征值为 $\lambda$,对应的特征向量为 $\boldsymbol{x}$,即 $\boldsymbol{Bx}=\lambda \boldsymbol{x}$,我们有:$\boldsymbol{S}^{-1}\boldsymbol{ASx}=\lambda \boldsymbol{x}$,则立刻得出:$\boldsymbol{A}(\boldsymbol{Sx})=\lambda (\boldsymbol{Sx})$,所以 $\boldsymbol{A}$与 $\boldsymbol{B}$具有相同的特征值,且对应的特征向量存在线性变换关系,于是自然引出下面的定义:
定义 1.11.1.1:矩阵相似的定义
对于复矩阵 $\boldsymbol{A},\boldsymbol{B}$,若存在一非奇异的复矩阵 $\boldsymbol{S}$使得 $\boldsymbol{B}=\boldsymbol{S}^{-1}\boldsymbol{AS}$,则称 $\boldsymbol{A}$与 $\boldsymbol{B}$相似,记为 $\boldsymbol{A}\sim\boldsymbol{B}$。线性变换 $\mathscr{A}:\boldsymbol{A}\mapsto \boldsymbol{S}^{-1}\boldsymbol{AS}$称为 $\boldsymbol{A}$的相似变换。
容易证明,矩阵的相似关系是一等价关系。
定理 1.11.1.1:矩阵相似的重要性质与定理
(1)若 $\boldsymbol{A}\sim\boldsymbol{B}$,则他们的行列式、迹、特征值多项式、特征值均相同
(2)若 $\boldsymbol{A}\sim\boldsymbol{B}$,则 $\boldsymbol{A}^{-1}\sim\boldsymbol{B}^{-1}$且 $\boldsymbol{B}^k\sim\boldsymbol{B}^k$。
关于矩阵的相似,还有一些很重要的结论,我们放在矩阵的相似对角化那一章介绍。
11.2:矩阵相合
定义 1.11.2.1:矩阵相合的定义
设 $\boldsymbol{A},\boldsymbol{C}\in\mathbb{C}^{n\times n}$,其中 $\boldsymbol{C}$非奇异,则称 $\boldsymbol{B}=\boldsymbol{C}^H\boldsymbol{AC}$为 $\boldsymbol{A}$的相合(合同)矩阵,记为 $\boldsymbol{A}\simeq\boldsymbol{B}$。线性变换 $\mathscr{A}:\boldsymbol{A}\mapsto\boldsymbol{C}^H\boldsymbol{AC}$ 为相合(合同)变换。
容易证明,矩阵相合也是一等价关系。
定理 1.11.2.2:相合的几个重要结论
(1)若 $\boldsymbol{A}\simeq\boldsymbol{B}$,则他们的二次型相同;
(2)设有 Hermitian 矩阵 $\boldsymbol{A}$,则 $\boldsymbol{A}$正定的充要条件是 $\boldsymbol{A}$相合于单位阵。证明
(3)复数域内,任意两个对角矩阵相合,特别地,对角矩阵与单位阵相合。
12、矩阵的相似对角化
我们首先来整理一下矩阵间的三大等价关系:
- 等价($\boldsymbol{A}\cong\boldsymbol{B}$):$\boldsymbol{A}$能经有限次初等变换变为 $\boldsymbol{B}$
- 相似($\boldsymbol{A}\sim\boldsymbol{B}$):存在非奇异方阵 $\boldsymbol{S}$使得 $\boldsymbol{B}=\boldsymbol{S}^{-1}\boldsymbol{AS}$
- 相合($\boldsymbol{A}\simeq\boldsymbol{B}$):存在非奇异方阵 $\boldsymbol{C}$使得 $\boldsymbol{B}=\boldsymbol{C}^H\boldsymbol{AC}$
定义 1.12.1:相似对角化的定义
设有一矩阵 $\boldsymbol{A}\in\mathbb{C}^{n\times n}$,若 $\boldsymbol{A}$相似于一对角矩阵 $\boldsymbol{D}=\text{diag}(d_1\cdots,d_n)$,即存在非奇异方阵 $\boldsymbol{P}$使得 $\boldsymbol{P}^{-1}\boldsymbol{AP}=\boldsymbol{D}$,则称 $\boldsymbol{A}$ 是可相似对角化的。
自然地,我们引出了几个问题:为什么要进行相似对角化?什么样的矩阵能进行相似对角化?如何做相似对角化?
定理 1.12.1:矩阵可相似对角化的充要条件
设 $\boldsymbol{A}_{n\times n}$,则 $\boldsymbol{A}$能相似对角化的充要条件是 $\boldsymbol{A}$的 $n$个特征向量线性无关。证明
定义 1.12.2:酉相似对角化
设有 $\boldsymbol{A}$,若其经过酉矩阵相似变换得到 $\boldsymbol{B}$,即存在酉矩阵 $\boldsymbol{U}^{-1}=\boldsymbol{U}^H$,使得 $\boldsymbol{B}=\boldsymbol{U}^{-1}\boldsymbol{AU}$,则称 $\boldsymbol{A}$与 $\boldsymbol{B}$是酉相似的。显然若 $\boldsymbol{A},\boldsymbol{B}$酉相似,则他们一定相合。
特别地,对于 Hermitian 矩阵 $\boldsymbol{A}=\boldsymbol{A}^H$,它一定能酉对角化,即存在酉矩阵 $\boldsymbol{U}^{-1}=\boldsymbol{U}^H$使得 $\boldsymbol{U}^{-1}\boldsymbol{AU}=\text{diag}(\lambda_1,\cdots,\lambda_n)$,其中 $\lambda_i$为 $\boldsymbol{A}$的特征值。这种分解也被称为 Schur 分解。证明
如果我们将条件弱化,则可知实对称矩阵一定是可以相似对角化的,且线性变换矩阵为一正交矩阵,此时我们称之为正交对角化。
13、向量化与矩阵化
后面有用到,所以把这一部分补上。
定义 1.13.1:矩阵向量化算子
设有 矩阵 $\boldsymbol{A}\in\mathbb{R}^{m\times n}$,则向量化算子 $\text{vec}(\cdot)$将 $\boldsymbol{A}$按照列排列成一个 $mn\times 1$的列向量:
$$ \text{vec}(\boldsymbol{A})= \begin{bmatrix} a_{11}\\ \vdots\\ a_{m1}\\ a_{12}\\ \vdots\\ a_{mn} \end{bmatrix} $$
相应的,也可以按照行排列为一个 $1\times mn$ 的行向量:
$$ \text{rvec}(\boldsymbol{A})=[a_{11},\cdots,a_{1n},a_{21},\cdots,a_{mn}] $$
例如:设有矩阵 $\boldsymbol{A}=\begin{bmatrix}a&b\\ c&d\end{bmatrix}$,则 $\text{vec}(\boldsymbol{A})=\begin{bmatrix}a\\ c \\ b \\ d\end{bmatrix}$而 $\text{rvec}(\boldsymbol{A})=\begin{bmatrix}a & b & c & d\end{bmatrix}$
显然地:
$$ \text{rvec}(\boldsymbol{A})=(\text{vec}(\boldsymbol{A}^\top))^\top,\text{vec}(\boldsymbol{A})=(\text{rvec}(\boldsymbol{A}^\top))^\top $$
定义 1.13.2:交换矩阵
对于 $\text{vec}(\boldsymbol{A})$与 $\text{vec}(\boldsymbol{A}^\top)$,其均为 $mn\times 1$列向量且包含的元素是相同的,只是排列顺序不同,因此存在唯一的 $\boldsymbol{K}\in\mathbb{R}^{mn\times mn}$满足:
$$ \boldsymbol{K}_{mn}\text{vec}(\boldsymbol{A})=\text{vec}(\boldsymbol{A}^\top)\tag{1} $$
我们称该矩阵为交换矩阵。类似地,也有:
$$ \boldsymbol{K}_{nm}\text{vec}(\boldsymbol{A}^\top)=\text{vec}(\boldsymbol{A})\tag{2} $$
对比(1)(2)两式,我们知道:
$$ \boldsymbol{K}_{nm}\boldsymbol{K}_{mn}\text{vec}(\boldsymbol{A})=\boldsymbol{K}_{nm}\text{vec}(\boldsymbol{A}^\top)=\text{vec}(\boldsymbol{A}) $$
从而立刻有 $\boldsymbol{K}_{nm}\boldsymbol{K}_{mn}=\boldsymbol{I}_{mn}$。
定理 1.13.1:向量化算子的性质
(1)$\text{vec}(\boldsymbol{A}+\boldsymbol{B})=\text{vec}(\boldsymbol{A})+\text{vec}(\boldsymbol{B})$
(2)矩阵乘积的迹:
$$ \begin{align} tr(\boldsymbol{A}^\top\boldsymbol{B})&=(\text{vec}(\boldsymbol{A}))^\top\text{vec}(\boldsymbol{B})\\ tr(\boldsymbol{A}^H\boldsymbol{B})&=(\text{vec}(\boldsymbol{A}))^H\text{vec}(\boldsymbol{B}) \end{align} $$
(3)与 Hadamard 积:
$$ \text{vec}(\boldsymbol{A}\circ\boldsymbol{B})=\text{vec}(\boldsymbol{A})\circ\text{vec}(\boldsymbol{B})=\text{diag}(\text{vec}(\boldsymbol{A}))\text{vec}(\boldsymbol{B}) $$
定义 1.13.3:向量的矩阵化算子
设有一 $mn\times 1$的列向量 $\boldsymbol{a}=\left[a_1,\cdots,a_{mn}\right]^\top$,将其转换为一 $m\times n$的矩阵 $\boldsymbol{A}$的运算称为矩阵化,记为 $\text{unvec}_{m,n}$,定义:
$$ \boldsymbol{A}_{m\times n}=\text{unvec}_{m,n}=\begin{bmatrix} a_1 & a_{m+1} & \cdots & a_{m(n-1)+1}\\ a_2 & a_{m+2} & \cdots & a_{m(n-1)+2}\\ \vdots & \vdots & \ddots & \vdots \\ a_m & a_{2m} & \cdots & a_{mn}\end{bmatrix} $$
显然就是用 $\boldsymbol{a}$的元素按列填充。相应的,我们也有将 $1\times mn$ 转换为$m\times n$ 矩阵的行向量矩阵化算子,此时就是按行填充了。
14、矩阵的 Kronecker 积
定义 1.14.1:Kronecker 积
Kronecker 积为一 $\otimes:\mathbb{R}^{m\times n}\times \mathbb{R}^{p\times q}\to\mathbb{mp\times nq}$的映射,具体而言,设有矩阵 $\boldsymbol{A}_{m\times n},\boldsymbol{B}_{p\times q}$,则:
$$ \boldsymbol{A}\otimes \boldsymbol{B}= \begin{bmatrix} a_{11}\boldsymbol{B} & a_{12}\boldsymbol{B}&\cdots & a_{1n}\boldsymbol{B}\\ \vdots & \vdots & \ddots &\vdots \\ a_{m1}\boldsymbol{B} & a_{m2}\boldsymbol{B} &\cdots &a_{mn}\boldsymbol{B} \end{bmatrix}_{mp\times nq} $$
特别地,当 $n=q=1$时,我们有两个向量的 Kronecker 积:
$$ \boldsymbol{a}\otimes\boldsymbol{b}= \begin{bmatrix} a_1\boldsymbol{b}\\ \vdots\\ a_m\boldsymbol{b} \end{bmatrix} =\begin{bmatrix} a_1b_1\\ \vdots\\ a_1b_p\\ \vdots\\ a_mb_1\\ \vdots\\ a_mb_p \end{bmatrix}_{mp\times 1} $$
定理 1.14.1:Kronecker 积的性质
显然地,Kronecer 积一般是不满足交换律的,它还具有如下的性质:
(1)$\boldsymbol{A}\otimes\boldsymbol{O}=\boldsymbol{O}\otimes \boldsymbol{A}=\boldsymbol{O}$
(2)设有常数 $\alpha,\beta$,则 $\alpha\boldsymbol{A}\otimes\beta\boldsymbol{B}=\alpha\beta(\boldsymbol{A}\otimes\boldsymbol{B})$
(3)结合律:$\boldsymbol{A}\otimes(\boldsymbol{B}\otimes\boldsymbol{C})=(\boldsymbol{A}\otimes\boldsymbol{B})\otimes\boldsymbol{C}$
(4)$(\boldsymbol{AB})\otimes(\boldsymbol{CD})=(\boldsymbol{A}\otimes\boldsymbol{C})(\boldsymbol{B}\otimes\boldsymbol{D})$
(5)分配律:
$$ \begin{align} \boldsymbol{A}\otimes(\boldsymbol{B}\pm\boldsymbol{C})&=\boldsymbol{A}\otimes\boldsymbol{B}\pm\boldsymbol{A}\otimes\boldsymbol{C}\\ (\boldsymbol{B}\pm\boldsymbol{C})\otimes\boldsymbol{A}&=\boldsymbol{B}\otimes\boldsymbol{A}\pm\boldsymbol{C}\otimes\boldsymbol{A} \end{align} $$
(6)运算:$(\boldsymbol{A}\otimes\boldsymbol{B})^\star=\boldsymbol{A}^\star\otimes\boldsymbol{B}^\star$,其中 $\star$可代表转置、共轭转置、求逆、求广义逆运算
(7)迹:$tr(\boldsymbol{A}\otimes\boldsymbol{B})=tr(\boldsymbol{A})tr(\boldsymbol{B})$
(8)行列式:$\det(\boldsymbol{A}_{m\times m}\otimes\boldsymbol{B}_{n\times n})=(\det \boldsymbol{A})^n(\det \boldsymbol{B})^m$
(9)矩阵乘积向量化:$\boldsymbol{A}_{m\times p},\boldsymbol{B}_{p\times q},\boldsymbol{C}_{q\times n}$
$$ \begin{align} \text{vec}(\boldsymbol{ABC})&=(\boldsymbol{C}^\top\otimes\boldsymbol{A})\text{vec}(\boldsymbol{B})\\ &=(\boldsymbol{I}_q\otimes\boldsymbol{AB})\text{vec}(\boldsymbol{C})\\ &=(\boldsymbol{C}^\top\boldsymbol{B}^\top\otimes\boldsymbol{I}_m)\text{vec}(\boldsymbol{A})\\ \text{vec}(\boldsymbol{AC})&=(\boldsymbol{I}_p\otimes \boldsymbol{A})\text{vec}(\boldsymbol{C})\\ &=(\boldsymbol{C}^\top\otimes \boldsymbol{I}_m)\text{vec}(\boldsymbol{A}) \end{align} $$
(10)Kronecker 积向量化:$\boldsymbol{X}_{p\times m},\boldsymbol{Y}_{n\times q}$
$$ \text{vec}(\boldsymbol{X}\otimes \boldsymbol{Y})=(\boldsymbol{I}_m\otimes\boldsymbol{K}_{qp}\otimes\boldsymbol{I}_n)(\text{vec}\boldsymbol{X}\otimes\text{vec}\boldsymbol{Y}) $$
其他性质参见教材 72 页。
后记
这一章东西实在太多啦!只挑了比较重要的介绍了,其他教材上有的用到再补。有了矩阵代数的基础知识后,我们可以开始进行比较深入的分析了!