Vasily's Blog

一个记录学习经历的站点

0%

线性代数笔记

第一版前言

这篇文档为本人于2024年阅读Gilbert教授所著Introduction to Linear Algebra的笔记。这是本人第一次阅读纯英文线性代数教科书,并且没有进行仔细地校订,因此存在一些疏漏和小错误。敬请读者批评指正。

值得一提的是,原文全篇是由\(\LaTeX\)排版。感谢所有对\(\LaTeX\)有贡献的开发者,是你们的努力使得个人排版成为了可能。本文为原文的Markdown转写,如需PDF格式文档请通过邮件联系本人

第一版参考文献:

[1] [美]Gilbert Strang.线性代数(Introduction to Linear Algebra)[M].第五版.北京:清华大学出版社,2019.

[2] [美]David C. Lay, Steven R.Lay, Judi J.McDonald.线性代数及其应用(Linear Algebra and Its Applications)[M].刘深泉, 张万芹, 包乐娥, 陆博译.第五版.北京:机械工业出版社,2018.

求解线性方程组

使用矩阵消元

摘要

  1. 用于消元的矩阵有两种:消元矩阵\(E_{ij}\)和交换矩阵\(P_{ij}\)

  2. 消元矩阵\(E_{ij}\)是将单位矩阵\(I\)\(a_{ij}\)换为\(-l\),其中\(l = \dfrac{a_{ij}}{a_{ii}}\)

  3. 交换矩阵\(P_{ij}\)是将单位矩阵\(I\)中的第\(i\)行和第\(j\)列交换得到的矩阵

矩阵的LU分解

摘要

  1. 通过将\(E_{ij}\)求逆可以得到\(L_{ij}\)。其中,\(L_{ij}\)中除了主对角线,所有元素变为原来的相反数。

  2. \(A = LU\)分解得到的两个矩阵\(L\)\(U\)分别为下三角形矩阵和上三角形矩阵。

  3. 通过\(A = LU\)求解方程组\(A\boldsymbol{x} = \boldsymbol{b}\)的方法:

    1. 执行\(A = LU\)分解,得到\(L\)\(U\)

    2. 求解\(L\boldsymbol{c} = \boldsymbol{b}\),然后求解\(U\boldsymbol{x} = \boldsymbol{c}\)

  4. \(A = LU\)可以写为\(A = LDU\),其中\(D\)为主对角线与原来的\(U\)相同,其他元素为0。而此时\(U\)的主对角线为1,其他元素为\(\dfrac{u_{ij}}{d_{i}}\)

转置和交换

摘要

  1. \(AB\)\(A^{-1}\)的转置分别为\(B^{\mathrm{T}} A^{\mathrm{T}}\)\((A^{\mathrm{T}})^{-1}\)

  2. \(\boldsymbol{x}\)\(\boldsymbol{y}\)的内积为\(\boldsymbol{x}^{\mathrm{T}}\boldsymbol{y}\);外积为\(\boldsymbol{x}\boldsymbol{y}^{\mathrm{T}}\)

  3. 对称矩阵(symmetric matrix)满足\(S^{\mathrm{T}} = S\)

  4. 正交矩阵(orthogonal matrix)满足\(Q^{\mathrm{T}} = Q^{-1}\)\(Q\)的列均为正交单位向量。

  5. 交换矩阵(Permutaiton matrix)\(P\)为单位矩阵的行按照任意顺序排列得到的矩阵。\(P\)\(n!\)种排列,且\(P^{\mathrm{T}} = P^{-1}\)

PA = LU

有时为了满足阶梯型矩阵,需要进行行交换操作。因此,此时进行LU分解得到如下的表达式 \[ A = E_{ij}^{-1}\dots P_{lm}^{-1} \dots E_{pq}^{-1}U \]

我们一般选择先进行交换,再进行消元,因此\(A = LU\)可以扩写为 \[ PA = LU \]

求导的转置

我们已经知道,两个向量的内积可以表示为 \[ \boldsymbol{x}\cdot \boldsymbol{y} = \boldsymbol{x}^{\mathrm{T}} \boldsymbol{y} = \sum\limits_{i = 1}^{n} x_{i}y_{i} \] 如果我们现在求两个函数的内积,那么不难推广得到 \[ \boldsymbol{x}^{\mathrm{T}} \boldsymbol{y} = \int_{-\infty}^{\infty}x(t)y(t)\mathrm{d} t \] 假设\(A = \dfrac{\mathrm{d}}{\mathrm{d} t}\),那么将其代入内积可得 \[ \int_{-\infty}^{\infty} \dfrac{\mathrm{d} x(t)}{\mathrm{d} t} y(t) \mathrm{d} t = \int_{-\infty}^{\infty} x(t) \left( -\dfrac{\mathrm{d} y}{\mathrm{d} t} \right) \mathrm{d} t \] 这表明,如果我们认为此时内积满足\((A\boldsymbol{x})^{\mathrm{T}} \boldsymbol{y} = \boldsymbol{x}^{\mathrm{T}} (A^{\mathrm{T}}\boldsymbol{y})\),那么就会得到 \[ A^{\mathrm{T}} = -\dfrac{\mathrm{d}}{\mathrm{d} t} \]

向量空间和子空间

向量空间

摘要

  1. 标准的\(n\)维空间\(\boldsymbol{R}^{n}\)包含了所有含有\(n\)个参数的实向量。

  2. 如果向量\(\boldsymbol{v}, \boldsymbol{w} \in \boldsymbol{S}\),那么\(c\boldsymbol{v} + d\boldsymbol{w} \in S\)

  3. \(\boldsymbol{R}^{n}\)的子空间是\(\boldsymbol{R}^{n}\)内的一个向量空间。

  4. \(A\)的列空间为\(A\)的所有列向量的线性组合。如果\(A\)\(m\times n\)矩阵,那么\(A\)的列空间为\(\boldsymbol{R}^{m}\)的子空间。

  5. \(A\boldsymbol{x} = \boldsymbol{b}\)可解等价于\(\boldsymbol{b} \in \boldsymbol{C}(A)\)\(\boldsymbol{C}(A)\)\(A\)的列空间)。

向量空间的定义

特殊的向量空间

  1. \(\boldsymbol{M}\):包含所有\(2\times2\)矩阵的空间

  2. \(\boldsymbol{F}\):包含所有实函数\(f(x)\)的空间

  3. \(\boldsymbol{Z}\):仅包含零向量的空间

  4. \(\boldsymbol{P}_{n}\):包含所有的\(n\)阶多项式

\(A\)的列空间

列空间

对于\(m \times n\)矩阵\(A\),其列空间为\(\boldsymbol{R}^{m}\)的子空间。

向量组张成空间

对于任意一个向量空间\(\boldsymbol{V}\),假设其中有一些向量组成了如下集合 \[ S = {\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \dots, \boldsymbol{v}_{N}} \boldsymbol{v}_{i} \in \boldsymbol{V} \] 对于一般情况,这个集合并不是子空间。然而,这些向量的所有线性组合均存在于\(\boldsymbol{V}\)中。因此,我们可以得到由这些向量线性组合得到的空间是\(\boldsymbol{V}\)的子空间。我们将其称为向量组\(S\)张成的空间。

矩阵\(A\)的零空间:求解\(A\boldsymbol{x} = 0\)以及\(R\boldsymbol{x} = 0\)

摘要

  1. 零空间\(\boldsymbol{N}(A)\)包含了\(A\boldsymbol{x} = 0\)的所有解\(\boldsymbol{x}\)

  2. 上阶梯型矩阵可以化为主元均为1,且主元所在列的其他元素均为0的简化阶梯型矩阵\(R = \mathrm{rref}(A)\)(书中称其为redoced row echelon form)。

  3. \(A\)\(R\)转化的过程中零空间不变。

  4. 如果矩阵\(A\)的第\(j\)列没有主元,那么此列对应的变量\(x_{j}\)为自由变量,此列为自由列。当\(x_{j} = 1\)时,\(A\boldsymbol{x} = 0\)有特解。

  5. 主元的数量与\(R\)中非零行的数量相等,我们将其称为\(R\)的秩,记为\(\mathrm{rank}R = r\)。同时,\(R\)\(n - r\)个自由列。

  6. \(m \times n\)矩阵\(A\),如果\(m < n\),那么其零空间内有非零解。

引入

\(A\)的零空间包含了所有满足\(A\boldsymbol{x} = 0\)的特解的线性组合。

简化行阶梯矩阵\(R\)

对于\(m \times n\)矩阵\(A\),其零空间为\(\boldsymbol{R}^{n}\)的子空间。

矩阵的秩

下面的例子是秩为1的情况 \[ A = \begin{bmatrix} 1 & 3 & 10 \\ 2 & 6 & 20 \\ 3 & 9 & 30 \\ \end{bmatrix} \longrightarrow R = \begin{bmatrix} 1 & 3 & 10 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \] 不难看出,矩阵\(A\)中的第二列和第三列均为第一列的倍数。因此,如果我们假设\(\boldsymbol{u} = [1\ 2\ 3]^{\mathrm{T}}\),那么我们可以按照如下方式变形 \[ A = [\boldsymbol{u}\ 3\boldsymbol{u}\ 10\boldsymbol{u}] = \boldsymbol{u}[1\ 3\ 10] \] 假设\(\boldsymbol{v} = [1\ 3\ 10]^{\mathrm{T}}\),那么\(A = \boldsymbol{u}\boldsymbol{v}^{\mathrm{T}}\)。将其代入\(A\boldsymbol{x} = 0\),我们可以得到\(\boldsymbol{u}(\boldsymbol{v}^{\mathrm{T}}\boldsymbol{x}) = 0\)。这样我们可以得到\(\boldsymbol{v}^{\mathrm{T}}\boldsymbol{x} = 0\)。换言之,对于秩为1的情况 \[ \forall \boldsymbol{x} \in \boldsymbol{N}(A),\ \exists \boldsymbol{v} \in \boldsymbol{C}(A),\ \boldsymbol{v}^{\mathrm{T}}\boldsymbol{x} = 0 \] 这表明列空间中的向量与零空间中的向量正交。

\(A\boldsymbol{x} = \boldsymbol{b}\)的通解

摘要

  1. \(A\boldsymbol{x} = \boldsymbol{b}\)的通解为\(A\boldsymbol{x} = 0\)的通解\(\boldsymbol{x}_{n}\)\(A\boldsymbol{x} = \boldsymbol{b}\)的特解\(\boldsymbol{x}_{p}\)之和\(\boldsymbol{x}_{n} + \boldsymbol{x}_{p}\)

  2. \(m\times n\)矩阵\(A\)列满秩时,矩阵\(A\)变形生成的矩阵\(R\)没有自由列。这意味着\(\boldsymbol{N}(A) = \boldsymbol{Z}\)

  3. \(m\times n\)矩阵\(A\)列满秩时,\(\boldsymbol{C}(A) = \boldsymbol{R}^{m}\)。这意味着\(A\boldsymbol{x} = \boldsymbol{b}\)总是有解。

  4. \(m\times n\)矩阵\(A\)同时行满秩和列满秩时,矩阵\(A\)可逆。

\(A\boldsymbol{x}_{p} = \boldsymbol{b}\)的一个特解

当列满秩时,矩阵\(A\)的列数与主元数相同,这意味着\(R\)没有自由列。因此,此时\(R\)可以按照分块矩阵写为 \[ R = \begin{bmatrix} I\\ 0\\ \end{bmatrix} \] 其中,上半部分为\(n\times n\)的单位矩阵,下半部分为\((m - n)\times n\)的零矩阵。同时,没有自由列意味着\(\boldsymbol{N}(A) = \boldsymbol{Z}\),或者说\(\boldsymbol{x}_{n} = 0\)。如果我们将其代入通解,可以得到这样的结论:如果\(A\boldsymbol{x} = \boldsymbol{b}\)有解,那么其只有一个解。用下一章的话讲,此时\(A\)的列线性无关。

通解

行满秩意味着每一行都有主元。这说明每一行都是线性无关的。如果这个空间内有\(m\)个线性无关的向量,那么显然这个空间是\(m\)维的。这也就是说,\(C(A) = \boldsymbol{R}^{m}\)

我们可以认为每一个满足\(n\)元一次方程的点,都在该方程所规定的比原空间维度低一维的空间内。这样,我们可以认为\(A\boldsymbol{x} = 0\)的零空间意味着满足某一系列约束条件的点的集合(或者说是在“广义平面”的公共部分的向量集合,这个集合显然构成一个向量空间,也就是零空间)。同时,我们需要注意这样的集合包括原点。

现在,如果我们将\(A\boldsymbol{x}_{n}\)改为\(A(\boldsymbol{x}_{n} + \boldsymbol{x}_{p})\),那么实际上是将每个向量按照\(\boldsymbol{x}_{p}\)的方向平移。显然,有许多种平移方法可以得到相同的结果,而我们只需要一种平移方法即可。同时,由于并没有规定如何按照\(\boldsymbol{x}_{p}\)平移,因此对于所有的\(\boldsymbol{b}\),总能找到一个对应的平移方法。这也就是说,对于任意的\(\boldsymbol{b}\)\(A\boldsymbol{x} = \boldsymbol{b}\)总是有解。

线性无关、基向量和维数

摘要

  1. 如果\(A\)的列向量线性无关,那么\(A\boldsymbol{x} = 0\)的唯一解为\(\boldsymbol{x} = 0\)\(A\)的零空间为\(\boldsymbol{Z}\)

  2. 如果一组向量\(\boldsymbol{v}_{i}(i = 1\dots k)\)线性无关,那么只有当所有\(c_{i} = 0\)时才有\(\sum\limits_{i = 1}^{n} c_{i}\boldsymbol{v}_{i} = 0\)

  3. \(m < n\)时,矩阵有线性相关列,并且矩阵至少有\(n - m\)自由变量。

  4. 在由一组向量\(\boldsymbol{v}_{i}(i = 1\dots k)\)张成的空间\(\boldsymbol{S}\)中,任意一个向量均可表示为\(\boldsymbol{v}_{i}(i = 1\dots k)\)的线性组合

  5. 一组向量\(\boldsymbol{v}_{i}(i = 1\dots k)\)是空间\(\boldsymbol{S}\)的基向量的充要条件为这一组向量张成这个空间,且这一组向量线性无关。

  6. 向量空间\(\boldsymbol{S}\)的维数为向量空间中基向量的个数

引入

基向量组是张成向量空间的线性无关向量组。每一个空间中的向量都可以表示为基向量组的唯一一种线性组合。下面是四个重要的概念以及其含义:

  1. 线性无关向量组:没有额外的向量

  2. 张成空间的向量组:具有足够的向量,从而通过线性组合产生其他向量

  3. 空间的基:张成空间的最小向量组(不多也不少)

  4. 空间的维数:基中向量个数

线性无关

以下几个概念等价:

  1. \(m \times n\)矩阵\(A\)列满秩

  2. \(\mathrm{rank}A = n\)

  3. \(m \times n\)矩阵\(A\)\(n\)个主元

  4. \(\boldsymbol{N}(A)\)中只有\(\boldsymbol{x} = 0\)

张成一个子空间的向量组

我们将\(m\times n\)矩阵\(A\)的行空间定义为由矩阵中行向量所张成的\(\boldsymbol{R}^{n}\)的子空间,记为\(\boldsymbol{C}(A^{\mathrm{T}})\)

向量空间的基

向量空间的基是满足如下条件的一组向量:

  1. 基向量线性无关

  2. 基向量能张成线性空间

对于每个在向量空间的向量,其仅有一种表示为基向量线性组合的方式。

\(n\)阶单位矩阵的列向量为\(\boldsymbol{R}^{n}\)的标准基。

\(A\)可逆时,对\(A\boldsymbol{x} = 0\)显然可以两边同时左乘\(A^{-1}\),这样可以得到\(\boldsymbol{x} = 0\)。这表明,当\(A\)可逆时,\(\boldsymbol{C}(A) = \boldsymbol{Z}\),因此我们可以得到,可逆矩阵的列向量线性无关。同时,由于对\(A\boldsymbol{x} = \boldsymbol{b}\),我们总是可以得到\(\boldsymbol{x} = A^{-1}\boldsymbol{b}\),因此当\(A\)可逆时,其列向量为\(\boldsymbol{R}^{n}\)的一组基。同样,我们还可以得到,由于可逆矩阵的组成方式有无限多种,因此\(\boldsymbol{R}^{n}\)的基的数量也无限多。

我们还可以得到,矩阵\(A\)的主元列是其列空间的基。

四种子空间的维数

摘要

  1. 列空间\(\boldsymbol{C}(A)\)和行空间\(\boldsymbol{C}(A^{\mathrm{T}})\)的维数相同,均为\(A\)的秩\(r\)

  2. 零空间\(\boldsymbol{N}(A)\)的维数为\(n - r\)\(\boldsymbol{N}(A^{\mathrm{T}})\)的维数为\(m - r\)

引入

\(m\times n\)矩阵\(A\)的秩直接决定了以下四种子空间的维数:

  1. 行空间\(\boldsymbol{C}(A^{\mathrm{T}})\),其为\(\boldsymbol{R}^{n}\)的子空间

  2. 列空间\(\boldsymbol{C}(A)\),其为\(\boldsymbol{R}^{m}\)的子空间

  3. 零空间\(\boldsymbol{N}(A)\),其为\(\boldsymbol{R}^{n}\)的子空间

  4. 剩余零空间\(\boldsymbol{N}(A^{\mathrm{T}})\),其为\(\boldsymbol{R}^{m}\)的子空间

四种子空间的行简化阶梯型矩阵

对于行空间而言,显然其非零行组成的向量组即为基,而非零行个数即为维数。而对于列空间而言,其主元列组成的向量组为基,主元个数即为维数。由于主元个数与非零行数量显然相等,因此我们可以得到如下的关系:

定理:

矩阵\(A\)的行空间与列空间的维数相等,均为矩阵的秩。

由于我们可以通过依次将某一自由变量设置为1,其余设置为0的方式求解零空间的基向量,因此不难看出,零空间的基向量个数与自由变量数相同。这样,我们可以得出零空间的维数为\(n - r\)。相似地,当我们求剩余零空间的基时,我们需要将所有非零行的系数设置为0,因此只有零行的系数可以变化。这表明剩余零空间的基中,只有\(m - r\)个向量,因此其维数为\(m - r\)

矩阵的四种子空间

结论:

  1. \(\boldsymbol{C}(A^{\mathrm{T}}) = \boldsymbol{C}(R^{\mathrm{T}})\)

  2. \(\dim\boldsymbol{C}(A)= \dim\boldsymbol{C}(R)\),但\(\boldsymbol{C}(A) \neq \boldsymbol{C}(R)\)

  3. \(\boldsymbol{N}(A) = \boldsymbol{N}(R)\)

  4. \(\dim\boldsymbol{N}(A)= \dim\boldsymbol{N}(R)\),但\(\boldsymbol{N}(A) \neq \boldsymbol{N}(R)\)

用秩一矩阵表示矩阵

秩一矩阵指的是秩为1的矩阵,也就是只有一个非零行的矩阵。例如 \[ A = \begin{bmatrix} 2 & 3 & 7 & 8\\ 4 & 6 & 14 & 16 \\ 6 & 9 & 21 & 24 \\ \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \\ 3\\ \end{bmatrix} \begin{bmatrix} 2 & 3 & 7 & 8\\ \end{bmatrix} = \boldsymbol{u}\boldsymbol{v}^{\mathrm{T}} \] 不难看出,秩一矩阵可以转化为两个向量的外积。而对于任意的矩阵,在经过LU分解后,可以得到 \[ A = \begin{bmatrix} \boldsymbol{u}_{1} & \boldsymbol{u}_{2} & \dots & \boldsymbol{u}_{m} \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{v}_{1}^{\mathrm{T}} \\ \boldsymbol{v}_{2}^{\mathrm{T}} \\ \vdots \\ \boldsymbol{v}_{m}^{\mathrm{T}} \\ \end{bmatrix} \] 由此不难看出,任意一个矩阵均可以表示为\(m\)个秩一矩阵的和。更进一步可以得到,由于并不是所有矩阵都为满秩矩阵,因此实际上任意一个矩阵只需\(r\)个秩一矩阵即可表示。

正交性

四个子空间的正交性

摘要

  1. 正交向量满足\(\boldsymbol{v}^{\mathrm{T}}\boldsymbol{w} = 0\)

  2. 对于向量空间\(\boldsymbol{V}\)\(\boldsymbol{W}\),如果\(\forall \boldsymbol{v}\in \boldsymbol{V}, \boldsymbol{w} \in \boldsymbol{W}\)\(\boldsymbol{v}^{\mathrm{T}}\boldsymbol{w} = 0\),那么这两个子空间正交。

  3. 矩阵\(A\)的行空间与零空间正交,其列空间与剩余零空间正交。

  4. \(\forall \boldsymbol{x} \in \boldsymbol{R}^{n}\)\(\boldsymbol{x} = \boldsymbol{x}_{\mathrm{row}} + \boldsymbol{x}_{\mathrm{null}}\)

  5. 如果向量空间\(\boldsymbol{S}\)满足\(\dim \boldsymbol{S} = d\),那么其每组基都有\(d\)个向量。同时,如果\(d\)个向量能够张成\(\boldsymbol{S}\),那么这些向量为线性无关;如果这\(d\)个向量线性无关,那么其可以张成\(\boldsymbol{S}\)

引入

下面说明零空间与行空间之间的关系

定理:

对于\(m\times n\)矩阵\(A\)\(\boldsymbol{N}(A)\)\(\boldsymbol{C}(A^{\mathrm{T}})\)均为\(\boldsymbol{R}^{n}\)的子空间,且二者正交

证明:

\(\forall\boldsymbol{x}\in \boldsymbol{N}(A)\),其满足\(A\boldsymbol{x} = 0\)。这表明,对于 \[ A = \begin{bmatrix} \boldsymbol{u}_{1}^{\mathrm{T}} \\ \boldsymbol{u}_{2}^{\mathrm{T}} \\ \vdots\\ \boldsymbol{u}_{m}^{\mathrm{T}}\\ \end{bmatrix} \] 中的每一个行向量,都有\(\boldsymbol{u}_{i}^{\mathrm{T}}\boldsymbol{x} = 0\)。这表明,对于\(\forall\boldsymbol{b}^{\mathrm{T}}\in \boldsymbol{C}(A^{\mathrm{T}})\)\(\boldsymbol{b}^{\mathrm{T}}\boldsymbol{x} = \sum\limits_{i = 1}^{m}c\boldsymbol{u}_{i}^{\mathrm{T}}\boldsymbol{x} = 0\)。因此\(\forall \boldsymbol{v}\in \boldsymbol{V}, \boldsymbol{w} \in \boldsymbol{W}\)\(\boldsymbol{v}^{\mathrm{T}}\boldsymbol{w} = 0\)。这表明这两个子空间正交。

相似地,有如下定理存在 >对于\(m\times n\)矩阵\(A\)\(\boldsymbol{N}(A^{\mathrm{T}})\)\(\boldsymbol{C}(A)\)均为\(\boldsymbol{R}^{m}\)的子空间,且二者正交

正交补

定义:

一个子空间\(\boldsymbol{V}\)的正交补(Orthogonal Complements)指的是包含每个与\(\boldsymbol{V}\)垂直的向量的子空间。我们将其记为\(\boldsymbol{V}^{\perp}\)

在说明下面的一个结论前,我们先说明直和的概念

定义:

如果\(\boldsymbol{V}_{1}\)\(\boldsymbol{V}_{2}\)是向量空间\(\boldsymbol{V}\)的子空间,如果\(\forall \boldsymbol{x}\in\boldsymbol{V}\)\(\exists! \boldsymbol{x}_{1} \in \boldsymbol{V}_{1}, \boldsymbol{x}_{2} \in \boldsymbol{V}_{2}\),那么我们将二者的和空间称为二者的直和(direct sum),记为\(\boldsymbol{V}_{1} \oplus \boldsymbol{V}_{2}\)

可以说明,如果两个子空间正交,那么二者的直和为母空间。

对于\(\forall \boldsymbol{x}\in \boldsymbol{R}^{n}\),我们可以通过\(A\boldsymbol{x} = \boldsymbol{b}\)得到列空间的向量\(\boldsymbol{b}\)。但同时,我们可以将\(\boldsymbol{x}\)分解为 \[ \boldsymbol{x} = \boldsymbol{x}_{\mathrm{row}} + \boldsymbol{x}_{\mathrm{null}} \] 其中,前者属于行空间,而后者属于零空间。将\(A\)左乘可以得到 \[ A \boldsymbol{x} = A(\boldsymbol{x}_{\mathrm{row}} + \boldsymbol{x}_{\mathrm{null}}) = A \boldsymbol{x}_{\mathrm{row}} = \boldsymbol{b} \] 由此不难看出,每一个列空间中的向量均可以从行空间的唯一一个向量得到。

对于两个正交的子空间,只有零向量同时存在于两个子空间。换言之,只有零向量与其自身正交。

组合不同的子空间的基

我们已经知道,对于向量空间\(\boldsymbol{R}^{n}\),只要存在于其中的有\(n\)个线性无关的向量,那么这些向量必然为其基。由此,对于行空间,我们可以得到\(r\)个线性无关的向量;而对于零空间,我们可以得到\(n - r\)个线性无关的向量。同时,这些向量彼此之间也是线性无关的(一个非零向量不能同时存在于两个正交子空间中)。因此,我们得到了\(n\)个线性无关的向量,这可以作为\(\boldsymbol{R}^{n}\)的一组基。由此,我们再次说明了,任意一个\(\boldsymbol{R}^{n}\)中的向量可以表示为行空间于零空间中的向量之和。

投影

摘要

  1. 向量\(\boldsymbol{b}\)在向量\(\boldsymbol{a}\)所在直线的投影为\(\boldsymbol{p} = \boldsymbol{a} \cdot \dfrac{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{b}}{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{a}}\)

  2. 差向量\(\boldsymbol{e} = \boldsymbol{b} - \boldsymbol{p}\)\(\boldsymbol{a}\)垂直

  3. 向量\(\boldsymbol{b}\)在子空间\(\boldsymbol{S}\)上的投影为\(\boldsymbol{S}\)中最近的向量\(\boldsymbol{p}\)\(\boldsymbol{b} - \boldsymbol{p}\)\(\boldsymbol{S}\)垂直

  4. \(A^{\mathrm{T}} A\)只有在\(A\)的列向量线性无关时可逆。\(\boldsymbol{N}(A^{\mathrm{T}} A) = \boldsymbol{N}(A)\)

  5. 向量\(\boldsymbol{b}\)在矩阵\(A\)的列空间上的投影为\(\boldsymbol{p} = A(A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}} \boldsymbol{b}\)

  6. \(\boldsymbol{C}(A)\)的投影矩阵为\(P = A(A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}}\),其满足\(\boldsymbol{p} = P\boldsymbol{b}\),以及\(P = P^{2} = P^{\mathrm{T}}\)

投影到线上

假设将向量\(\boldsymbol{b}\)投影到向量\(\boldsymbol{a}\)所在直线上,那么显然\(\boldsymbol{b}\)的投影\(\boldsymbol{p} = \hat{x}\boldsymbol{a}\),其中\(\hat{x}\)为一个数。同时,\(\boldsymbol{e} = \boldsymbol{b} - \boldsymbol{p}\)\(\boldsymbol{a}\)垂直,因此我们可以得到 \[ \boldsymbol{a}^{\mathrm{T}}(\boldsymbol{b} - \hat{x}\boldsymbol{a}) = 0 \] 由此不难解得 \[ \hat{x} = \dfrac{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{b}}{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{a}} \] 如果假设投影矩阵为\(P\),那么其满足\(\boldsymbol{p} = P\boldsymbol{b}\)。由于\(\boldsymbol{p} = \boldsymbol{a} \dfrac{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{b}}{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{a}}\),因此可以得到 \[ P = \dfrac{\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}}}{\boldsymbol{a}^{\mathrm{T}}\boldsymbol{a}} \] 不难看出,\(P\)本质上是由矩阵\(\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}}\)除以数\(\boldsymbol{a}^{\mathrm{T}}\boldsymbol{a}\)得到的。因此\(P\)为秩一矩阵。

投影到面上

假设在\(\boldsymbol{R}^{m}\)中有\(n\)个线性无关的向量\(\boldsymbol{a}_{1}, \dots, \boldsymbol{a}_{n}\),那么对于\(\forall\boldsymbol{b} \in \boldsymbol{R}^{m}\),我们需要寻找其在\(\mathrm{Span}(\boldsymbol{a}_{1}, \dots, \boldsymbol{a}_{n})\)上的投影\(\boldsymbol{p} = \sum\limits_{i = 1}^{n} \hat{x}_{i}\boldsymbol{a}_{i}\)。由于\(\mathrm{Span}(\boldsymbol{a}_{1}, \dots, \boldsymbol{a}_{n}) = \boldsymbol{C}(A)\),其中\(A\)为以\(\boldsymbol{a}_{1}, \dots, \boldsymbol{a}_{n}\)作为列向量的矩阵,因此\(\boldsymbol{p} = A\hat{\boldsymbol{x}}\),其中\(\hat{\boldsymbol{x}} = [\hat{x}_{1}\ \hat{x}_{2}\ \dots\ \hat{x}_{n}]^{\mathrm{T}}\)

差向量\(\boldsymbol{e} = \boldsymbol{b} - A\hat{\boldsymbol{x}}\)\(A\)中每个列向量均垂直,因此可以得到 \[ A^{\mathrm{T}}(\boldsymbol{b} - A\hat{\boldsymbol{x}}) = 0 \] 由此可得 \[ A^{\mathrm{T}} A\hat{\boldsymbol{x}} = A^{\mathrm{T}}\boldsymbol{b} \] 我们将这个方程称为“正规方程”,并由此可得 \[ \hat{\boldsymbol{x}} = (A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}}\boldsymbol{b} P = A(A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}} \]

对于矩阵\(A^{\mathrm{T}} A\),有一个很重要的定理

定理:

对于矩阵\(A\)\(\boldsymbol{N}(A^{\mathrm{T}} A) = \boldsymbol{N}(A)\)

证明:

  1. 证明\(\boldsymbol{N}(A)\)中向量均在\(\boldsymbol{N}(A^{\mathrm{T}} A)\)中:假如\(\boldsymbol{x}\in \boldsymbol{N}(A)\),那么\(A\boldsymbol{x} = 0\)。将其左乘\(A^{\mathrm{T}}\)不难得到\(A^{\mathrm{T}} A \boldsymbol{x} = 0\),这样\(\boldsymbol{x} \in \boldsymbol{N}(A^{\mathrm{T}} A)\)

  2. 证明\(\boldsymbol{N}(A^{\mathrm{T}} A)\)中的向量均在\(\boldsymbol{N}(A)\)中:假如\(\boldsymbol{x} \in \boldsymbol{N}(A^{\mathrm{T}} A)\),那么\(A^{\mathrm{T}} A\boldsymbol{x} = 0\)。将其左乘\(\boldsymbol{x}^{\mathrm{T}}\)可以得到 \[ \boldsymbol{x}^{\mathrm{T}} A^{\mathrm{T}} A\boldsymbol{x} = (A\boldsymbol{x})^{\mathrm{T}} A\boldsymbol{x} = ||A\boldsymbol{x}||^{2} = 0 \] 这表明,\(A\boldsymbol{x}\)的长度为0,因此其为零向量,即\(A\boldsymbol{x} = 0\).

由上述定理不难得出,只有当\(A\)的列线性无关时,\(\boldsymbol{N}(A^{\mathrm{T}} A) = \boldsymbol{Z}\),即\(A^{\mathrm{T}} A\)可逆。由此不难得到以下推论 >推论: > >对于矩阵\(A\)\(A^{\mathrm{T}} A\)可逆的充要条件是\(A\)的列线性无关

最小二乘近似

摘要

  1. 通过求解\(A^{\mathrm{T}} A\hat{\boldsymbol{x}} = A^{\mathrm{T}}\boldsymbol{b}\)可以得到\(\boldsymbol{b}\)\(\boldsymbol{C}(A)\)上的投影\(\boldsymbol{p} = A\hat{\boldsymbol{x}}\)

  2. \(A\boldsymbol{x} = \boldsymbol{b}\)无解时,\(\hat{\boldsymbol{x}}\)为最小二乘解,其满足\(||\boldsymbol{b} - A\hat{\boldsymbol{x}}||^{2}\)最小。为了使\(E = ||\boldsymbol{b} - A\hat{\boldsymbol{x}}||^{2}\)最小,求\(\dfrac{\partial E}{\partial x_{i}} = 0\)。这样也可以得到\(A^{\mathrm{T}} A\hat{\boldsymbol{x}} = A^{\mathrm{T}}\boldsymbol{b}\)

  3. 为了线性拟合\((t_{1}, b_{1}), \dots, (t_{m}, b_{m})\),矩阵\(A = \begin{bmatrix} 1 & t_{1}\\ 1 & t_{2}\\ \vdots & \vdots \\ 1 & t_{m}\\ \end{bmatrix}\),这样\(A^{\mathrm{T}} A = \begin{bmatrix} m & \sum\limits_{i = 1}^{m}t_{i} \\ \sum\limits_{i = 1}^{m}t_{i} & \sum\limits_{i = 1}^{m}t_{i}^{2} \\ \end{bmatrix}\),而\(A^{\mathrm{T}} \boldsymbol{b} = \begin{bmatrix} \sum\limits_{i = 1}^{m}b_{i} \\ \sum\limits_{i = 1}^{m}t_{i}b_{i} \\ \end{bmatrix}\)

最小化差向量

对于任意的方程\(A\boldsymbol{x} = \boldsymbol{b}\),其并不一定有解。我们可以将其分解为\(\boldsymbol{b} = \boldsymbol{p} + \boldsymbol{e}\),其中\(\boldsymbol{p}\in \boldsymbol{C}(A)\),同时\(\boldsymbol{e}\)\(\boldsymbol{p}\)垂直。这样,由于\(A\boldsymbol{x} - \boldsymbol{b}\)\(A\boldsymbol{x} - \boldsymbol{p}\)垂直,我们可以得到以下方程 \[ ||A\boldsymbol{x} - \boldsymbol{b}||^{2} = ||A\boldsymbol{x} - \boldsymbol{p}||^{2} + ||\boldsymbol{e}||^{2} \]\(\hat{\boldsymbol{x}}\)代入不难发现,由于\(||A\hat{\boldsymbol{x}} - \boldsymbol{p}||^{2} = 0\),因此此时\(E = ||A\boldsymbol{x} - \boldsymbol{b}||^{2}\)最小。

最小二乘的大图景

我们已经论证过,\(\forall\boldsymbol{x}\in \boldsymbol{R}^{n}\)\(\exists!\boldsymbol{x}_{\mathrm{row}} \in \boldsymbol{C}(A^{\mathrm{T}}), \boldsymbol{x}_{\mathrm{null}} \in \boldsymbol{N}(A)\)\(\boldsymbol{x} = \boldsymbol{x}_{\mathrm{row}} + \boldsymbol{x}_{\mathrm{null}}\)。因此我们可以类似地得到,\(\forall \boldsymbol{b} \in \boldsymbol{R}^{m}\)\(\exists!\boldsymbol{p} \in \boldsymbol{C}(A)\)\(\boldsymbol{e} \in \boldsymbol{N}(A^{\mathrm{T}})\)\(\boldsymbol{b} = \boldsymbol{p} + \boldsymbol{e}\)

由于\(A\)的列向量线性无关(为什么?),因此其零空间现在仅为一个点。这确保了\(A^{\mathrm{T}} A\)可逆,从而使我们能够解出\(\hat{\boldsymbol{x}}\)

拟合直线

假设在二维空间中拟合直线。这其实是试图寻找 \[ A\boldsymbol{x} = \begin{bmatrix} 1 & t_{1}\\ 1 & t_{2}\\ \vdots & \vdots \\ 1 & t_{m}\\ \end{bmatrix}\begin{bmatrix} C \\ D \\ \end{bmatrix} = \begin{bmatrix} b_{1} \\ b_{2} \\ \vdots \\ b_{m}\\ \end{bmatrix} = \boldsymbol{b} \] 的解。然而这通常无法实现。此时,我们的任务就变成了寻找\(\boldsymbol{x}\),使得\(E = ||A \boldsymbol{x} - \boldsymbol{b}||^{2}\)最小。要求最小值,我们对\(E\)求偏导,并使其等于0 \[ \left\{ %在equation环境下使用,用\left\{命令添加左大括号,用\right.以打点.结束 \begin{aligned} \dfrac{\partial E}{\partial C} & = \sum\limits_{i = 1}^{m}2(C + Dt_{i} - b_{i}) = 0 \\ \dfrac{\partial E}{\partial D} & = \sum\limits_{i = 1}^{m}2t_{i}(C + Dt_{i} - b_{i}) = 0 \\ \end{aligned} \right. \] 由此不难得到如下矩阵方程 \[ \begin{bmatrix} m & \sum\limits_{i = 1}^{m}t_{i} \\ \sum\limits_{i = 1}^{m}t_{i} & \sum\limits_{i = 1}^{m}t_{i}^{2} \\ \end{bmatrix} \begin{bmatrix} C \\ D \\ \end{bmatrix} = \begin{bmatrix} \sum\limits_{i = 1}^{m}b_{i} \\ \sum\limits_{i = 1}^{m}t_{i}b_{i} \\ \end{bmatrix} \]这就是我们之前得到的正规方程(normal equation) \[ A^{\mathrm{T}} A\hat{\boldsymbol{x}} = A^{\mathrm{T}} \boldsymbol{b} \]

列向量线性相关的情况

见伪逆相关部分。矩阵\(A\)的伪逆会选择\(A\hat{\boldsymbol{x}} = \boldsymbol{p}\)的最短解。

正交基与Gram-Schmidt正交化

摘要

  1. 如果\(\boldsymbol{q}_{i}^{\mathrm{T}}\boldsymbol{q} = \delta_{ij}\),那么这些向量正交,并且由其作为列向量的矩阵\(Q\)满足\(Q^{\mathrm{T}} Q = I\)

  2. 如果上述的\(Q\)为方阵,那么\(Q^{\mathrm{T}} = Q^{-1}\),并且\(QQ^{\mathrm{T}} = I\)。我们将\(Q\)称为正交矩阵。

  3. \(Q\boldsymbol{x} = \boldsymbol{b}\)的最小二乘解为\(\hat{\boldsymbol{x}} = Q^{\mathrm{T}}\boldsymbol{b}\)\(\boldsymbol{b}\)的投影为\(\boldsymbol{p} = QQ^{\mathrm{T}}\boldsymbol{b}\)

  4. Gram-Schmidt正交化将线性无关向量\(\boldsymbol{a}_{i}\)变为正交向量\(\boldsymbol{q}_{i}\),其按照如下方式进行:

4.1 \(\boldsymbol{q}_{1} = \dfrac{\boldsymbol{a}_{1}}{||\boldsymbol{a}_{1}||}\)

4.2 \(\boldsymbol{q}_{i} = \dfrac{\boldsymbol{a}_{i} - \boldsymbol{p}_{i}}{||\boldsymbol{a}_{i} - \boldsymbol{p}_{i}||}\),其中投影\(\boldsymbol{p}_{i} = \sum\limits_{j = 1}^{i - 1} (\boldsymbol{a}^{\mathrm{T}}\boldsymbol{q}_{j})\boldsymbol{q}_{j}\)

  1. 每个\(\boldsymbol{a}_{i}\)都是\(\boldsymbol{q}_{1}\)\(\boldsymbol{q}_{i}\)的线性组合,因此我们可以将由\(\boldsymbol{a}_{i}\)组成的列线性无关矩阵\(A\)分解为正交矩阵\(Q\)与上三角型矩阵\(R\)之积(\(A = QR\))。

引入

每个排列矩阵(permutation matrix)都是正交矩阵。 正交矩阵满足以下性质:

定理:

如果矩阵\(Q\)为正交矩阵,那么其满足:

  1. \(||Q\boldsymbol{x}|| = ||\boldsymbol{x}||\)

  2. \(\boldsymbol{x}\cdot\boldsymbol{y} = (Q\boldsymbol{x}) \cdot (Q\boldsymbol{y})\)

证明:

  1. \(||Q\boldsymbol{x}||^{2} = (Q\boldsymbol{x})^{\mathrm{T}}(Q\boldsymbol{x}) = \boldsymbol{x}^{\mathrm{T}} Q^{\mathrm{T}} Q \boldsymbol{x} = \boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}\)

  2. \((Q\boldsymbol{x})^{\mathrm{T}}(Q\boldsymbol{y}) = \boldsymbol{x}^{\mathrm{T}}\boldsymbol{Q}^{\mathrm{T}} Q\boldsymbol{y} = \boldsymbol{x}^{\mathrm{T}}\boldsymbol{y}\)

使用正交基的投影:用\(Q\)代替\(A\)

对于一般的矩阵\(A\),向量\(\boldsymbol{b}\)\(\boldsymbol{C}(A)\)上的投影为\(\boldsymbol{p} = A\hat{\boldsymbol{x}}\)。此时正规方程为 \[ A^{\mathrm{T}} A \hat{\boldsymbol{x}} = A^{\mathrm{T}}\boldsymbol{b} \] 并且 \[ \hat{\boldsymbol{x}} = (A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}}\boldsymbol{b} P = A(A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}} \] 以及 \[ \boldsymbol{p} = A(A^{\mathrm{T}} A)^{-1}A^{\mathrm{T}}\boldsymbol{b} \]

\(A\)替换为\(Q\)可以得到 \[ \hat{\boldsymbol{x}} = A^{\mathrm{T}}\boldsymbol{b} P = QQ^{\mathrm{T}} \] 以及 \[ \boldsymbol{p} = QQ^{\mathrm{T}}\boldsymbol{b} = \sum\limits_{i = 1}^{n} \boldsymbol{q}_{i}(\boldsymbol{q}_{i}^{\mathrm{T}}\boldsymbol{b}) \]

Gram-Schmidt正交化

其过程如下:

  1. 任选一个向量\(\boldsymbol{a}_{1}\)归一化: \[ \boldsymbol{b}_{1} = \boldsymbol{a}_{1} \]

  2. 第二个正交向量\(\boldsymbol{b}_{2}\)应当与\(\boldsymbol{b}_{1}\)垂直,因此我们选择\(\boldsymbol{a}_{2}\)与其在\(\boldsymbol{b}_{1}\)上投影之差: \[ \boldsymbol{b}_{2} = \boldsymbol{a}_{2} - \dfrac{\boldsymbol{b}_{1}^{\mathrm{T}}\boldsymbol{a}_{2}}{\boldsymbol{b}_{1}^{\mathrm{T}}\boldsymbol{b}_{1}}\boldsymbol{b}_{1} \]

  3. 第三个正交向量\(\boldsymbol{b}_{3}\)应当与\(\boldsymbol{b}_{1}\)\(\boldsymbol{b}_{2}\)垂直,因此我们选择\(\boldsymbol{a}_{3}\)与其在\(\boldsymbol{b}_{1}\)\(\boldsymbol{b}_{2}\)上的投影之差: \[ \boldsymbol{b}_{3} = \boldsymbol{a}_{3} - \dfrac{\boldsymbol{b}_{1}^{\mathrm{T}}\boldsymbol{a}_{3}}{\boldsymbol{b}_{1}^{\mathrm{T}}\boldsymbol{b}_{1}}\boldsymbol{b}_{1} - \dfrac{\boldsymbol{b}_{2}^{\mathrm{T}}\boldsymbol{a}_{3}}{\boldsymbol{b}_{2}^{\mathrm{T}}\boldsymbol{b}_{2}}\boldsymbol{b}_{2} \]

  4. 重复上述步骤,直到所有向量都正交化。

QR分解

以只有三个向量的例子为例。假设\(A = \begin{bmatrix} \boldsymbol{a} & \boldsymbol{b} & \boldsymbol{c} \\ \end{bmatrix}\),其QR分解过程如下:

  1. 将每个正交向量的表达式按照如下方式重写: \[ \left\{ \begin{aligned} \boldsymbol{b}_{1} = & \boldsymbol{a}_{1} \\ \boldsymbol{b}_{2} = & \boldsymbol{a}_{2} - \dfrac{\boldsymbol{b}_{1}\cdot\boldsymbol{a}_{2}}{\boldsymbol{b}_{1}\cdot\boldsymbol{b}_{1}}\boldsymbol{b}_{1} \\ \boldsymbol{b}_{3} = & \boldsymbol{a}_{3} - \dfrac{\boldsymbol{b}_{1}\cdot\boldsymbol{a}_{3}}{\boldsymbol{b}_{1}\cdot\boldsymbol{b}_{1}}\boldsymbol{b}_{1} - \dfrac{\boldsymbol{b}_{2}\cdot\boldsymbol{a}_{3}}{\boldsymbol{b}_{2}\cdot\boldsymbol{b}_{2}}\boldsymbol{b}_{2} \end{aligned} \right. \]

  2. 上式可变形为 \[ \left\{ %在equation环境下使用,用\left\{命令添加左大括号,用\right.以打点.结束 \begin{aligned} \boldsymbol{q}_{1}||\boldsymbol{b}_{1}|| = & \boldsymbol{a}_{1} \\ \boldsymbol{q}_{2}||\boldsymbol{b}_{2}|| = & \boldsymbol{a}_{2} - (\boldsymbol{q}_{1}\cdot\boldsymbol{a}_{2})\boldsymbol{q}_{1} \\ \boldsymbol{q}_{3}||\boldsymbol{b}_{3}|| = & \boldsymbol{a}_{3} - (\boldsymbol{q}_{1}\cdot\boldsymbol{a}_{3})\boldsymbol{q}_{1} - (\boldsymbol{q}_{2}\cdot\boldsymbol{a}_{3})\boldsymbol{q}_{2} \\ \end{aligned} \right. \] 其中,\(\boldsymbol{q}_{i}\)\(\boldsymbol{b}_{i}\)归一化得到的单位向量。

  3. 注意到\(||\boldsymbol{b}_{i}|| = \boldsymbol{q}_{i}\cdot\boldsymbol{a}_{i}\)(然而注意力涣散了一个小时才注意到),由此可得 \[ \left\{ %在equation环境下使用,用\left\{命令添加左大括号,用\right.以打点.结束 \begin{aligned} \boldsymbol{q}_{1}(\boldsymbol{q}_{1}\cdot\boldsymbol{a}_{1}) = & \boldsymbol{a}_{1} \\ \boldsymbol{q}_{2}(\boldsymbol{q}_{2}\cdot\boldsymbol{a}_{2}) = & \boldsymbol{a}_{2} - (\boldsymbol{q}_{1}\cdot\boldsymbol{a}_{2})\boldsymbol{q}_{1} \\ \boldsymbol{q}_{3}(\boldsymbol{q}_{3}\cdot\boldsymbol{a}_{3}) = & \boldsymbol{a}_{3} - (\boldsymbol{q}_{1}\cdot\boldsymbol{a}_{3})\boldsymbol{q}_{1} - (\boldsymbol{q}_{2}\cdot\boldsymbol{a}_{3})\boldsymbol{q}_{2} \\ \end{aligned} \right. \] 写成矩阵形式即可得到 \[ \begin{bmatrix} \boldsymbol{a} & \boldsymbol{b} & \boldsymbol{c} \\ \end{bmatrix} = \begin{bmatrix} \boldsymbol{q}_{1} & \boldsymbol{q}_{2} & \boldsymbol{q}_{3} \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{q}_{1}^{\mathrm{T}}\boldsymbol{a}_{1} & \boldsymbol{q}_{1}^{\mathrm{T}}\boldsymbol{a}_{2} & \boldsymbol{q}_{1}^{\mathrm{T}}\boldsymbol{a}_{3} \\ 0 & \boldsymbol{q}_{2}^{\mathrm{T}}\boldsymbol{a}_{2} & \boldsymbol{q}_{2}^{\mathrm{T}}\boldsymbol{a}_{3} \\ 0 & 0 & \boldsymbol{q}_{3}^{\mathrm{T}}\boldsymbol{a}_{3} \\ \end{bmatrix} \]

行列式

行列式性质

摘要

  1. 当矩阵\(A\)的列线性相关时,我们称这样的矩阵为奇异矩阵(Singular Matrix)。奇异矩阵满足\(\det A = 0\)

  2. 行交换使得行列式变号

  3. \(\det BA = \det B \det A\)\(\det A^{\mathrm{T}} = \det A\)

  4. \(\begin{vmatrix} ta & b \\ tc & d \\ \end{vmatrix} = t\begin{vmatrix} a & b \\ c & d \\ \end{vmatrix}\)\(\begin{vmatrix} a + a' & b + b' \\ c & d \\ \end{vmatrix} = \begin{vmatrix} a & b \\ c & d \\ \end{vmatrix} + \begin{vmatrix} a' & b' \\ c & d \\ \end{vmatrix}\)

  5. \(\begin{vmatrix} a & b \\ c - la & d - lb \\ \end{vmatrix} = \begin{vmatrix} a & b \\ c & d \\ \end{vmatrix}\)

排列和余子式

摘要

  1. 矩阵\(A\)的行列式可以按照第\(i\)行展开为\(\det A = \sum\limits_{j = 1}^{n}(-1)^{i + j}a_{ij}M_{ij}\),其中\(M_{ij}\)被称为余子式(cofactor)。也可以按照将符号与余子式相乘,得到代数余子式\(C_{ij} = (-1)^{ij}M_{ij}\),这样行列式可以展开为\(\det A = \sum\limits_{i = 1}^{n}a_{ij}C_{ij}\)

Cramer法则

摘要

  1. \(A^{-1} = \dfrac{C^{\mathrm{T}}}{\det A}\),其中\(C^{\mathrm{T}}\)为矩阵\(A\)的伴随矩阵(Adjoint Matrix),其满足\((C^{\mathrm{T}})_{ij} = C_{ji}\)

  2. Cramer法则指的是在方程\(A\boldsymbol{x} = \boldsymbol{b}\)中,\(x_{i} = \dfrac{\det B_{i}}{\det A}\),其中\(\det B_{i}\)是将\(A\)的第\(i\)列换为\(\boldsymbol{b}\)得到的行列式。

特征值和特征向量

特征值简介

摘要

  1. 对于形如\(A\boldsymbol{x} = \lambda\boldsymbol{x}\)的方程,我们将\(\boldsymbol{x}\)称为特征向量,\(\lambda\)称为特征值

  2. \(A^{n}\boldsymbol{x} = \lambda^{n}\boldsymbol{x}\)\(A^{-1}\boldsymbol{x} = \lambda^{-1}\boldsymbol{x}\)\((A + cI)\boldsymbol{x} = (\lambda + c)\boldsymbol{x}\)

  3. 如果\(A\boldsymbol{x} = \lambda\boldsymbol{x}\),那么\((A - \lambda I)\boldsymbol{x} = 0\),同时\(\det (A - \lambda I) = 0\)

特征值方程

如果\((A - \lambda I)\boldsymbol{x} = 0\)有非零解,那么存在\(A\)的特征向量。而由于只有当\(\det (A - \lambda I) = 0\)时其才存在非零解,因此通过\(\det (A - \lambda I) = 0\)可以解出特征值\(\lambda\)

迹和行列式

\(n\)个特征值之积等于行列式的值,\(n\)个特征值之和等于对角线元素之和。我们将对角线元素之和称为矩阵的迹。

公共特征向量

只有当矩阵\(A\)\(B\)满足\(AB = BA\)时,其才共享\(n\)个特征向量。

矩阵对角化

摘要

  1. 假设\(X\)中每一列为特征向量\(\boldsymbol{x}_{i}\)\(\Lambda\)中对应列为\(\lambda_{i}\boldsymbol{e}_{i}\),那么我们可以将矩阵\(A\)的所有特征方程合写为\(AX = X\Lambda\)\(\Lambda\)为对角矩阵。同理有\(A^{n}X = X\Lambda^{n}\)

  2. \(n\)个线性无关特征向量组成的矩阵\(X\)可以将\(A\)对角化为\(\Lambda\),即\(\Lambda = X^{-1}AX\)。也可用\(\Lambda\)表示\(A\),即\(A = X\Lambda X^{-1}\)。同理\(\Lambda^{n} = X^{-1}A^{n}X\)\(A^{n} = X\Lambda^{n}X^{-1}\)

  3. 对于多个特征向量,如果其特征值各不相同,那么\(X\)为可逆矩阵,\(A\)可以对角化。反之,如果存在特征向量的特征值相同的情况,那么\(A\)可能存在线性相关的特征向量(也可能所有特征向量线性无关),此时\(X\)不可逆。

  4. 对于每个可以表示为\(C = B^{-1}AB\)的矩阵\(C\),其特征值与\(A\)相同。我们称\(C\)\(A\)相似(\(C\) is similar to \(A\))。

引入

关于对角化需要注意以下两点:

  1. 假设\(A\)的特征值\(\lambda_{i}\)各不相同,那么其特征向量\(\boldsymbol{x}_{i}\)也线性无关,此时\(X\)为可逆矩阵。任何特征值不重复的矩阵可以被对角化。

  2. 可对角化与可逆并不相同。可对角化与线性无关的特征向量是否足够有关。

相似矩阵:相同特征值

假设特征值矩阵\(\Lambda\)固定,通过改变特征向量矩阵\(X\),我们可以得到不同的矩阵\(A = X\Lambda X^{-1}\)。由这种思路,如果矩阵\(A\)可以表示为\(A = BCB^{-1}\),那么我们称\(A\)\(C\)相似。注意这里之所以用\(C\)代替\(\Lambda\),是因为\(C\)不一定是对角矩阵。而用\(B\)代替\(X\)是因为\(B\)的列不一定是特征向量,同时只要\(B\)满足可逆即可。对于相似的矩阵有下面的命题成立:

定理:

两个相似的矩阵的特征值相同。

证明:

假设\(C\boldsymbol{x} = \lambda \boldsymbol{x}\),那么我们只需要找到一个特征向量\(\boldsymbol{x}'\),满足\(A\boldsymbol{x}' = \lambda\boldsymbol{x}'\)。注意到,当\(\boldsymbol{x}' = B\boldsymbol{x}\),有 \[ AB\boldsymbol{x} = BCB^{-1}B\boldsymbol{x} = BC\boldsymbol{x} = \lambda B\boldsymbol{x} \] 因此,\(A\)\(C\)的特征值相同。

矩阵的幂

对于形如\(\boldsymbol{u}_{k + 1} = A\boldsymbol{u}_{k}\)的方程,我们下面说明使用对角化求解的方法:

  1. 通过递推关系,我们可以得到\(\boldsymbol{u}_{k} = A^{k}\boldsymbol{u}_{0}\)。而通过对角化我们可以得到 \[ \boldsymbol{u}_{k} = X\Lambda^{k} X^{-1}\boldsymbol{u}_{0} \]

  2. 对于\(n\times n\)矩阵\(A\),由于\(X\)为可逆矩阵,因此其列向量(也就是特征向量)可以张成\(\boldsymbol{R}^{n}\)。同时由于\(\boldsymbol{u}_{0}\)\(n\times 1\)向量,因此我们可以将其写为特征向量的线性组合 \[ \boldsymbol{u}_{0} = \sum\limits_{i = 1}^{n}c_{i}\boldsymbol{x}_{i} \longrightarrow X\boldsymbol{c} = \boldsymbol{u}_{0} \longrightarrow \boldsymbol{c} = X^{-1}\boldsymbol{u}_{0} \]

  3. 两边同时左乘\(X\Lambda^{k}\)可以得到 \[ \boldsymbol{u}_{k} = X\Lambda^{k} \boldsymbol{c} = \sum\limits_{i = 1}^{n}c_{i}(\lambda_{i})^{k}\boldsymbol{x}_{i} \]

非对角化矩阵

并不是每个特征向量对应的特征值相同。因此,对于一个特定特征值\(\lambda\),我们按照如下方式定义两种多重度:

  1. 几何多重度:\(\lambda\)对应的特征向量中,线性无关的特征向量数量

  2. 代数多重度:\(\lambda\)对应几个特征向量(或者说\(\lambda\)的重复次数)

此时,我们将对角化条件表述如下:

定理:

当几何多重度小于代数多重度时,矩阵\(A\)不可对角化。

对称矩阵

摘要

  1. 假设矩阵\(S\)为对称矩阵,那么其有\(n\)个实特征值\(\lambda_{i}\),并且有\(n\)个正交的特征向量\(q_{i}\)

  2. 每个实对称矩阵都可以对角化,即\(S = Q\Lambda Q^{-1} = Q\Lambda Q^{\mathrm{T}}\)(此时\(Q\)为正交矩阵)

  3. \(S\)的正特征值的数量与正的主元的数量相同

  4. 反对称矩阵满足\(A = -A^{\mathrm{T}}\),其有虚特征值\(\lambda\)和正交的复特征向量\(\boldsymbol{q}\)

引入

对于对称矩阵\(S\),将其对角化时有\(S = X\Lambda X^{-1}\)。取转置可得\(S^{\mathrm{T}} = (X^{-1})^{\mathrm{T}}\Lambda X^{\mathrm{T}}\)。由于\(S = S^{\mathrm{T}}\),因此我们可得 \[ X\Lambda X^{-1} = (X^{-1})^{\mathrm{T}}\Lambda X^{\mathrm{T}} \longrightarrow X^{\mathrm{T}} = X^{-1} \longrightarrow X^{\mathrm{T}} X = I \] 此时,通过将\(X\)中的向量变为单位向量,我们可以将\(X\)变为正交矩阵\(Q\)

下面我们证明一个定理:

定理:

实对称矩阵的每个特征值都是实数

证明:

假设\(S\boldsymbol{x} = \lambda\boldsymbol{x}\)中的特征值与特征向量均为复数,此时有 \[ S\overline{\boldsymbol{x}} = \overline{\lambda}\overline{\boldsymbol{x}} \longrightarrow \overline{\boldsymbol{x}}^{\mathrm{T}} S = \overline{\boldsymbol{x}}^{\mathrm{T}}\overline{\lambda} \longrightarrow \overline{\boldsymbol{x}}^{\mathrm{T}} S \boldsymbol{x} = \overline{\boldsymbol{x}}^{\mathrm{T}}\overline{\lambda} \boldsymbol{x} \]\(S\boldsymbol{x} = \lambda\boldsymbol{x}\)两边同时左乘\(\overline{\boldsymbol{x}}^{\mathrm{T}}\)可得\(\overline{\boldsymbol{x}}^{\mathrm{T}} S\boldsymbol{x} = \overline{\boldsymbol{x}}^{\mathrm{T}} \lambda\boldsymbol{x}\)。将两个方程联系起来不难得到 \[ \overline{\boldsymbol{x}}^{\mathrm{T}}\overline{\lambda} \boldsymbol{x} = \overline{\boldsymbol{x}}^{\mathrm{T}} \lambda\boldsymbol{x} \] 这表明\(\overline{\lambda} = \lambda\),即\(\lambda \in \mathbb{R}\)

由于对称矩阵可以表示为\(S = Q\Lambda Q^{\mathrm{T}}\),因此其可以写为\(S = \sum\limits_{i = 1}^{n}\lambda_{i}\boldsymbol{q}_{i}\boldsymbol{q}^{\mathrm{T}}\)

特征值与主元

对于对称矩阵,我们可以得到如下关系 \[ \det S = \det Q\det \Lambda \det Q^{\mathrm{T}} = \det \Lambda \] 因此不难看出,对称矩阵的主元之积等于其特征值之积,二者的符号自然相同。因此,正特征值的数量与正主元数量相同。(这个关系是否对于任意可以对角化的矩阵成立?)

任意一个矩阵都可以按照LDU分解。对于对称矩阵,由于\(S = S^{\mathrm{T}}\),因此 \[ LDU = U^{\mathrm{T}} DL^{\mathrm{T}} \] 不难看出,此时\(U = L^{\mathrm{T}}\)。代入LDU分解可得 \(S = LDL^{\mathrm{T}}\)

正定矩阵

摘要

  1. 对于\(\forall\boldsymbol{x} \in \boldsymbol{R}^{n}\)\(\boldsymbol{x} \neq 0\),如果\(\boldsymbol{x}^{\mathrm{T}} S\boldsymbol{x} > 0\),那么我们称\(S\)为正定矩阵(Positive Definite Matrix)。

  2. 如果矩阵\(S\)可以写为\(S = A^{\mathrm{T}} A\),其中\(A\)的列向量线性无关,那么其为正定矩阵。

  3. 对于\(\forall\boldsymbol{x} \in \boldsymbol{R}^{n}\)\(\boldsymbol{x} \neq 0\),如果\(\boldsymbol{x}^{\mathrm{T}} S\boldsymbol{x} \geq 0\),那么我们称\(S\)为半正定矩阵(Positive Semi-definite Matrix)。

  4. 对于正定矩阵\(S\)\(\boldsymbol{x}^{\mathrm{T}} S\boldsymbol{x} = 1\)给出了一个\(\boldsymbol{R}^{n}\)中的椭球。

正定的定义

定理:

如果\(A\)的列向量线性无关,那么\(S = A^{\mathrm{T}} A\)为正定矩阵

证明:

对于\(\forall\boldsymbol{x} \in \boldsymbol{R}^{n}\),我们有\(\boldsymbol{x}^{\mathrm{T}} S\boldsymbol{x} = \boldsymbol{x}^{\mathrm{T}} A^{\mathrm{T}} A\boldsymbol{x}\)。不难看出,后面的表达式实际上为\(||A\boldsymbol{x}||^{2}\)。由于\(\boldsymbol{x} \neq 0\),因此\(||A\boldsymbol{x}|| > 0\)

半正定矩阵

半正定矩阵指的是满足\(\boldsymbol{x}^{\mathrm{T}} S\boldsymbol{x} \geq 0\)的矩阵。其也可以分解为\(A^{\mathrm{T}} A\)的形式,只不过此时\(A\)的列向量线性相关。

奇异值分解

奇异值分解中的基和矩阵

摘要

  1. 奇异值分解(Singular Value Decomposition, SVD)使得四个子空间(行空间、零空间、列空间和剩余零空间)的基均为正交基

  2. 使用这些基向量,矩阵\(A\)变为对角矩阵\(\Sigma\),并且\(A\boldsymbol{v}_{i} = \sigma\boldsymbol{u}_{i}\),其中\(\sigma_{i}\)为奇异值

  3. 奇异值分解\(A = U\Sigma V^{\mathrm{T}}\)使得\(A\)变为许多秩一矩阵的和,即\(A = \sum\limits_{i = 1}^{r}\sigma_{i}\boldsymbol{u}_{i}\boldsymbol{v}_{i}^{\mathrm{T}}\)。并且\(\sigma_{1}\boldsymbol{u}_{1}\boldsymbol{v}_{1}^{\mathrm{T}}\)为最大的。

引入

之所以使用奇异值分解,而非对角化,是因为\(A = X\Lambda X^{-1}\)这种对角化并非对于所有矩阵都成立,而奇异值分解却对于任意\(M \times n\)矩阵\(A\)均存在。

为了完成SVD分解,我们需要引入两组奇异向量(Singular Vectors),记为\(\boldsymbol{u}\)\(\boldsymbol{v}\)。其中,\(\boldsymbol{u}_{i} \in \boldsymbol{R}^{m}\)\(\boldsymbol{v}_{i} \in \boldsymbol{R}^{n}\)。它们与四个子空间的对应关系如下所示:

  1. \(\boldsymbol{u}_{1},\ \dots,\ \boldsymbol{u}_{r}\)为列空间的正交基

  2. \(\boldsymbol{u}_{r + 1},\ \dots,\ \boldsymbol{u}_{m}\)为剩余零空间的正交基

  3. \(\boldsymbol{v}_{1},\ \dots,\ \boldsymbol{v}_{r}\)为行空间的正交基

  4. \(\boldsymbol{v}_{r + 1},\ \dots,\ \boldsymbol{v}_{n}\)为零空间的正交基

此时,这些向量满足如下关系 \[ A\boldsymbol{v}_{i} = \sigma_{i}\boldsymbol{u}_{i} i \in [1,\ r] \] 其中,\(\sigma_{i}\)被称为奇异值。对于一个特征方程\(A\boldsymbol{x} = \lambda\boldsymbol{x}\),我们不难看出 \[ ||A\boldsymbol{x}|| = ||\lambda \boldsymbol{x}|| = |\lambda|\ ||\boldsymbol{x}|| \] 当特征向量为正交向量\(\boldsymbol{v}_{i}\)(此时也是单位向量),上式变为 \[ ||A\boldsymbol{v}_{i}|| = |\lambda_{i}| \] 这表示在\(A\)的作用下,\(\boldsymbol{v}_{i}\)被拉长(或者反向拉长)的程度。因此,我们可以说\(A\)的奇异值\(\sigma_{i}\)\(A\boldsymbol{v}_{i}\)的长度(之所以为奇异值为正值,是因为规定如此)。

我们可以将上式写为如下的矩阵形式 \[ AV_{r} = U_{r}\Sigma_{r} \longleftrightarrow A\begin{bmatrix} \boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \dots & \boldsymbol{v}_{r}\\ \end{bmatrix} = \begin{bmatrix} \boldsymbol{u}_{1} & \boldsymbol{u}_{2} & \dots & \boldsymbol{u}_{r} \\ \end{bmatrix} \begin{bmatrix} \sigma_{1} & 0 & \dots & 0 \\ 0 & \sigma_{2} & \dots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \dots & \sigma_{r} \\ \end{bmatrix} \] 由于\(\boldsymbol{v}_{r + 1}\)\(\boldsymbol{v}_{n}\)为零空间的正交基向量,我们可以得到\(A\boldsymbol{v}_{i} = 0,\ i \in [r + 1,\ n]\)。由此不难得到 \[ AV = U\Sigma \longleftrightarrow A\begin{bmatrix} V_{r} & V_{n - r} \\ \end{bmatrix} = \begin{bmatrix} U_{r} & U_{n - r} \\ \end{bmatrix} \begin{bmatrix} \Sigma_{r} & 0 \\ 0 & 0 \\ \end{bmatrix} \] 由于\(V\)为正交向量组成的矩阵,因此\(V^{-1} = V^{\mathrm{T}}\)。由此我们可以得到\(A = U\Sigma V^{\mathrm{T}}\)。由这个式子,我们也可以将\(A\)表示为秩一矩阵之和,即\(A = \sum\limits_{i = 1}^{r}\sigma_{i}\boldsymbol{u}_{i}\boldsymbol{v}_{i}^{\mathrm{T}}\)

\(A\)为正定矩阵(或半正定矩阵)时,奇异值分解与对角化相同(\(U = V = X\)

SVD的证明

下面说明几个定理

定理:

\(\boldsymbol{v}_{i}\)\(A^{\mathrm{T}} A\)的正交特征向量,\(\Sigma^{\mathrm{T}}\Sigma\)为特征值矩阵。

证明:

\[ A^{\mathrm{T}} A = (U\Sigma V^{\mathrm{T}})^{\mathrm{T}}(U\Sigma V^{\mathrm{T}}) = V\Sigma^{\mathrm{T}} \Sigma V^{\mathrm{T}} \] 由于\(A^{\mathrm{T}} A\)为正定矩阵(或半正定矩阵),同时也是对称矩阵,并且\(\boldsymbol{v}_{i}\)为正交向量,因此\(V\)为正交矩阵,从而\(V\)\(A^{\mathrm{T}} A\)的特征向量矩阵。同理,由于对称矩阵的对角化可以写为 \[ S = Q\Lambda Q^{\mathrm{T}} \] 因此\(\Sigma^{\mathrm{T}}\Sigma\)为特征值矩阵。

通过上面的证明,我们可以看出,\(A^{\mathrm{T}} A\)的特征值为\(\sigma_{i}^{2}\)。换言之,\(A^{\mathrm{T}} A\)的特征值的平方根为奇异值。

奇异值分解的计算过程

  1. 将矩阵\(A^{\mathrm{T}} A\)对角化

  2. 计算\(V\Sigma\):先通过对角化的\(A^{\mathrm{T}} A\)的特征值计算出奇异值,然后将其对应的正交向量求出

  3. 构造\(U\)\(U_{r}\)为从\(AV_{r}\)计算得到的单位向量,然后将其扩展为单位正交基。

SVD的几何意义

摘要

  1. 奇异值分解\(A = U\Sigma V^{\mathrm{T}}\)可以视为旋转矩阵拉伸矩阵旋转矩阵

  2. \(A\)可以将圆上的向量\(\boldsymbol{x}\)变为椭圆上的向量\(A\boldsymbol{x}\)

  3. 矩阵\(A\)的范数为\(||A|| = \sigma_{1}\),其中\(\sigma_{1}\)为最大的奇异值

  4. 矩阵\(A\)的极分解为\(A = QS\),其中\(Q = UV^{\mathrm{T}}\)为旋转矩阵,\(S = V\Sigma V^{\mathrm{T}}\)为拉伸矩阵

  5. 矩阵\(A\)的伪逆(Pesudoinverse)为\(A^{+} = V\Sigma^{+}U^{\mathrm{T}}\),其将列空间中的向量\(A\boldsymbol{x}\)重新代入行空间中的\(\boldsymbol{x}\)

矩阵的范数

矩阵的范数就是矩阵最大的奇异值。其满足以下两个不等式

  1. \(||A + B|| \leq ||A|| + ||B||\)

  2. \(||AB|| \leq ||A||\ ||B||\)

Eckart-Young-Mirsky定理:在秩为\(k\)的矩阵中,最接近\(A\)的矩阵\(A_{k}\)满足 \[ A_{k} = \sum\limits_{i = 1}^{k} \sigma_{i}\boldsymbol{u}_{i}\boldsymbol{v}_{i}^{\mathrm{T}} \] 换言之,对于任意秩为\(k\)的矩阵\(B\),有 \[ ||A - B|| \geq ||A - A_{k}|| \]

极分解\(A = QS\)

由于每个矩阵都能进行奇异值分解,因此每个矩阵都能进行极分解 \[ A = QS = (UV^{\mathrm{T}})(V\Sigma V^{\mathrm{T}}) \] 由于\(Q\)为方阵,且\(Q^{\mathrm{T}} Q = VU^{\mathrm{T}} UV^{\mathrm{T}} = I\),因此\(Q\)为正交矩阵。同时,不难看出\(S = V\Sigma V^{\mathrm{T}}\)为将\(S\)对角化为\(\Sigma\)的形式,因此\(S\)的特征值为\(A^{\mathrm{T}} A\)的奇异值。同时有\(S^{2} = V\Sigma^{2}V^{\mathrm{T}} = A^{\mathrm{T}} A\)

QS分解也可写为KQ分解,即 \[ A = KQ = (U\Sigma U^{\mathrm{T}})(UV^{\mathrm{T}}) \]

伪逆

如果\(A\boldsymbol{v} = \sigma\boldsymbol{u}\),那么在\(A^{-1}\)存在时,\(A^{-1}\boldsymbol{u} = \dfrac{\boldsymbol{v}}{\sigma}\)。但无论\(A^{-1}\)是否存在,如果我们将\(A^{+}\)右乘\(\boldsymbol{u}\),那么我们总是可以得到\(\dfrac{\boldsymbol{v}}{\sigma}\)。伪逆的定义为 \[ A^{+} = V\Sigma^{+}U^{\mathrm{T}} = \begin{bmatrix} \boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \dots & \boldsymbol{v}_{n} \\ \end{bmatrix} \begin{bmatrix} \sigma_{1}^{-1} & & & \\ & \ddots & & \\ & & \sigma_{r}^{-1} & \\ & & & 0 \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{u}_{1}^{\mathrm{T}} \\ \boldsymbol{u}_{2}^{\mathrm{T}} \\ \vdots \\ \boldsymbol{u}_{m}^{\mathrm{T}} \\ \end{bmatrix} \] 如果\(A\)可逆,那么\(A^{-1} = A^{+}\)。但当\(A\)不满秩时,将\(\boldsymbol{u}_{i}\)左乘伪逆可以得到以下结果 \[ A^{+}\boldsymbol{u}_{i} = \left \{ \begin{aligned} & \dfrac{\boldsymbol{v}_{i}}{\sigma_{i}}, i \leq r \\ & 0, i > r \\ \end{aligned} \right. \] 譬如,对于\(\boldsymbol{u}_{1}\)我们有 \[ \begin{bmatrix} \boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \dots & \boldsymbol{v}_{n} \\ \end{bmatrix} \begin{bmatrix} \sigma_{1}^{-1} & & & \\ & \ddots & & \\ & & \sigma_{r}^{-1} & \\ & & & 0 \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{u}_{1}^{\mathrm{T}} \\ \boldsymbol{u}_{2}^{\mathrm{T}} \\ \vdots \\ \boldsymbol{u}_{m}^{\mathrm{T}} \\ \end{bmatrix} \boldsymbol{u}_{1} = \begin{bmatrix} \boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \dots & \boldsymbol{v}_{n} \\ \end{bmatrix} \begin{bmatrix} \sigma_{1}^{-1} & & & \\ & \ddots & & \\ & & \sigma_{r}^{-1} & \\ & & & 0 \\ \end{bmatrix} \begin{bmatrix} 1\\ 0\\ \vdots \\ 0\\ \end{bmatrix} \] 由此可得 \[ \begin{bmatrix} \boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \dots & \boldsymbol{v}_{n} \\ \end{bmatrix} \begin{bmatrix} \sigma_{1}^{-1}\\ 0\\ \vdots \\ 0\\ \end{bmatrix} = \sigma_{1}^{-1}\boldsymbol{v}_{1} \]

对于伪逆有以下定理: > 证明:对于\(\forall \boldsymbol{b}\in \boldsymbol{R}^{m}\)\(\exists \boldsymbol{x}^{+} \in \boldsymbol{C}(A^{\mathrm{T}})\),使得\(A^{+}\boldsymbol{b} = \boldsymbol{x}^{+}\) > > 由于\(\boldsymbol{C}(A)\)\(\boldsymbol{N}(A^{\mathrm{T}})\)正交,因此总是存在唯一的分解方式,使得\(A^{+}\boldsymbol{b}\)可以分解为\(A^{+}\boldsymbol{p} + A^{+}\boldsymbol{e}\),其中\(\boldsymbol{p} \in \boldsymbol{C}(A)\),而\(\boldsymbol{e} \in \boldsymbol{N}(A^{\mathrm{T}})\)。下面我们说明两个问题: > >1. \(\exists \boldsymbol{x}^{+} \in \boldsymbol{C}(A^{\mathrm{T}})\),使得\(A^{+}\boldsymbol{p} = \boldsymbol{x}^{+}\) > >2. \(A^{+}\boldsymbol{e} = 0\) > >对于第一个问题,假设\(\boldsymbol{x}^{+} = \boldsymbol{x}_{\mathrm{row}} + \boldsymbol{x}_{\mathrm{null}}\),其中\(\boldsymbol{x}_{\mathrm{row}} \in \boldsymbol{C}(A^{\mathrm{T}})\),而\(\boldsymbol{x}_{\mathrm{null}} \in \boldsymbol{N}(A^{\mathrm{T}})\),那么 >\[ >AA^{+} \boldsymbol{x}^{+} = A\boldsymbol{x}_{\mathrm{row}} + A\boldsymbol{x}_{\mathrm{null}} = A\boldsymbol{x}_{\mathrm{row}} >\] >这表明,\(A^{+}\boldsymbol{x}^{+} = \boldsymbol{x}_{\mathrm{row}}\)。因此\(\boldsymbol{x}^{+}\)必然在行空间中。 > >对于第二个问题,由于\(\boldsymbol{e} \in \boldsymbol{N}(A^{\mathrm{T}})\),因此 >\[ >\boldsymbol{e} = \begin{bmatrix} >\boldsymbol{u}_{r + 1} & \dots & \boldsymbol{u}_{m} \\ >\end{bmatrix} \begin{bmatrix} >c_{r + 1} \\ \dots \\ c_{m}\\ >\end{bmatrix} >\] >由此不难得到 >\[ >A^{+} \boldsymbol{e} = A\begin{bmatrix} >\boldsymbol{u}_{r + 1} & \dots & \boldsymbol{u}_{m} \\ >\end{bmatrix} \begin{bmatrix} >c_{r + 1} \\ \dots \\ c_{m}\\ >\end{bmatrix} = 0 >\] >注意当\(i \in [r + 1,\ m]\)时,\(A\boldsymbol{u}_{i} = 0\)

由于\(\forall \boldsymbol{x} \in \boldsymbol{R}^{n}\)\(\exists \boldsymbol{b} \in \boldsymbol{C}(A)\),使得\(A\boldsymbol{x} = \boldsymbol{b}\),因此我们可以这样说

推论:

线性映射\(A\)\(\boldsymbol{R}^{n}\)中属于\(\boldsymbol{C}(A^{\mathrm{T}})\)的部分映射到\(\boldsymbol{C}(A)\),将\(\boldsymbol{N}(A)\)的部分映射到0;线性映射\(A^{+}\)\(\boldsymbol{R}^{m}\)中属于\(\boldsymbol{C}(A)\)的部分映射到\(\boldsymbol{C}(A^{\mathrm{T}})\),将\(\boldsymbol{N}(A^{\mathrm{T}})\)的部分映射到0

线性变换

线性变换的概念

摘要

  1. 线性变换\(T\)将向量\(\boldsymbol{v}\)变为\(T(\boldsymbol{v})\),其中“线性”要求\(T(c\boldsymbol{v} + d\boldsymbol{w}) = cT(\boldsymbol{v}) + dT(\boldsymbol{w})\)

  2. 线性变换\(T\)满足\(T(\boldsymbol{0}) = \boldsymbol{0}\)

  3. \(\boldsymbol{v}\)\(T(\boldsymbol{v})\)可以在\(\boldsymbol{R}^{n}\)中,或者矩阵空间中,亦或是函数空间中

  4. 求导\(T(f) = \dfrac{\mathrm{d} f}{\mathrm{d} x}\)为线性变换,而积分\(\displaystyle T^{+}(f) = \int_{0}^{x} f(t) \mathrm{d} t\)为其伪逆

  5. 两个线性变换的积仍然为线性变换,即\((ST)(\boldsymbol{v}) = S(T(\boldsymbol{v}))\)

引入

线性变换与平移组合得到的变换\(T(\boldsymbol{v}) = A\boldsymbol{v} + \boldsymbol{u}_{0}\)被称为仿射变换(Affine Transformation)

线性变换与基

由于线性变换的“线性”,基经过变换后得到的向量组为变换后空间的基。

线性变换的像与核

线性变换的像(Range/Image)指的是线性变换\(T\)的所有像\(T(\boldsymbol{v})\)组成的空间

线性变换的核(Kernel)指的是所有使得线性变换\(T\)的像为0的原像\(\boldsymbol{v}\),即\(T(\boldsymbol{v}) = 0\)

线性变换的矩阵

摘要

  1. 如果我们知道原空间的基向量\(\boldsymbol{v}_{i}\),那么通过线性变换,我们能够得到新空间的基向量\(T(\boldsymbol{v}_{i})\)

  2. 通过将线性变换\(T\)作用在基向量\(\boldsymbol{v}_{j}\)上,我们能够得到\(T\)对应的矩阵中的第\(j\)

基的变换

假如\(\boldsymbol{V} = \boldsymbol{W} = \boldsymbol{R}^{2}\),并且线性变换\(T(\boldsymbol{v}) = \boldsymbol{v}\),同时假设\(\boldsymbol{v}_{1}\)\(\boldsymbol{v}_{2}\)\(\boldsymbol{V}\)的基向量,而\(\boldsymbol{w}_{1}\)\(\boldsymbol{w}_{2}\)\(\boldsymbol{W}\)的基向量,那么此时我们可以将线性变换的结果 \(T(\boldsymbol{v}_{1})\)\(T(\boldsymbol{v}_{2})\)写为\(\boldsymbol{w}_{1}\)\(\boldsymbol{w}_{2}\)的线性组合,即 \[ \begin{bmatrix} \boldsymbol{w}_{1} & \boldsymbol{w}_{2} \\ \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} \\ b_{21} & b_{22} \\ \end{bmatrix} = \begin{bmatrix} \boldsymbol{v}_{1} & \boldsymbol{v}_{2} \\ \end{bmatrix} \] 由此不难看出,如果我们从同一个空间的一组基\(V\)换为另一组基\(W\),那么二者满足\(WB = V\),或者说\(B = W^{-1}V\)。此时,对于\(\forall \boldsymbol{u} \in \boldsymbol{R}^{2}\),有 \[ \boldsymbol{u} = V\boldsymbol{c} = W\boldsymbol{d} \] 由于此时\(V\)\(W\)是基向量组成的矩阵,因此我们可以称\(\boldsymbol{c}\)\(\boldsymbol{d}\)分别为这两个基下的坐标。不难看出,此时这两个坐标之间满足 \[ \boldsymbol{d} = W^{-1}V\boldsymbol{c} = B\boldsymbol{c} \] 此时我们称矩阵\(B\)为由基\(\boldsymbol{v}_{i}\)\(\boldsymbol{w}_{i}\)变换的坐标变换矩阵。

构造矩阵

假如此时\(T\)\(n\)维空间\(\boldsymbol{V}\)转变为\(m\)维空间\(\boldsymbol{W}\),并且\(\boldsymbol{V}\)的基为\(\boldsymbol{v}_{i}\)\(\boldsymbol{W}\)的基为\(\boldsymbol{w}_{i}\),那么我们所需的矩阵自然为\(m\times n\)的矩阵。不难想到,对于基向量\(\boldsymbol{v}_{j}\),其线性变换后得到 \[ T(\boldsymbol{v}_{j}) = \sum\limits_{i = 1}^{m} a_{ij}\boldsymbol{w}_{i} \] 这样,对于\(\forall \boldsymbol{u} \in \boldsymbol{V}\),将线性变换作用于其上可以得到 \[ T(\boldsymbol{u}) = \sum\limits_{j = 1}^{n}c_{j}T(\boldsymbol{v}_{j}) = \begin{bmatrix} T(\boldsymbol{v}_{1}) & T(\boldsymbol{v}_{2}) & \dots & T(\boldsymbol{v}_{n}) \\ \end{bmatrix} \begin{bmatrix} c_{1} \\ c_{2} \\ \vdots \\ c_{n} \\ \end{bmatrix} \] 结合上式不难得到 \[ T(\boldsymbol{u}) = \begin{bmatrix} \boldsymbol{w}_{1} & \boldsymbol{w}_{2} & \dots & \boldsymbol{w}_{m} \\ \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \\ \end{bmatrix} \begin{bmatrix} c_{1} \\ c_{2} \\ \vdots \\ c_{n} \\ \end{bmatrix} = WM\boldsymbol{c} \] 可以看到,此时\(M\boldsymbol{c}\)表示\(T(\boldsymbol{u})\)在新的基下的坐标。如果我们用左乘矩阵\(M'\)来表示线性变换\(T\)的效果(也就是\(T(\boldsymbol{u}) = M'\boldsymbol{u}\)),那么 \[ T(\boldsymbol{u}) = M'V\boldsymbol{c} = WM\boldsymbol{c} = W\boldsymbol{d} \] 这表明,此时线性变换\(T(\boldsymbol{u})\)对应的矩阵为 \[ M' = WMV^{-1} \] 同时,我们也可以说,此时变换矩阵变为 \[ M = W^{-1} M' V \]

当我们给定原始坐标\(\boldsymbol{c}\)时,通过左乘\(M\),我们能够得到新的坐标\(\boldsymbol{d} = M\boldsymbol{c}\)。此时\(M\)也可以写成 \[ M = \begin{bmatrix} [T(\boldsymbol{v}_{1})]_{w} & [T(\boldsymbol{v}_{2})]_{w} & \dots & [T(\boldsymbol{v}_{n})]_{w} \\ \end{bmatrix} \] 也就是说,此时\(M\)的第\(i\)列为\(T(\boldsymbol{v}_{i})\)在基\(\boldsymbol{w}_{i}\)下的坐标。

特征向量与线性变换

如果线性变换\(T\)对应的矩阵\(A\)可对角化,那么有以下定理存在

定理:

如果矩阵\(A\)可以对角化,也就是\(A = X\Lambda X^{-1}\),并且\(X\)的列向量为\(\boldsymbol{R}^{n}\)的基,那么对于线性变换\(T:\ \boldsymbol{R}^{n} \longrightarrow \boldsymbol{R}^{n}, \boldsymbol{u} \longmapsto A\boldsymbol{u}\)\(\Lambda\)为坐标转换矩阵。 由于\(X\boldsymbol{c} = \boldsymbol{u}\),因此 \[ X\boldsymbol{d} = A\boldsymbol{u} = AX\boldsymbol{c} = X\Lambda X^{-1} X \boldsymbol{c} = X\Lambda \boldsymbol{c} \] 由此不难看出,\(\Lambda \boldsymbol{c} = \boldsymbol{d}\),也就是说\(\Lambda\)在此时起到了坐标转换矩阵的效果。

不难看出,上式的证明并没有用到\(\Lambda\)为对角矩阵的条件,因此我们可以给出一个更强的定理

定理:

如果矩阵\(A\)与矩阵\(C\)相似,也就是\(A = PCP^{-1}\),并且\(P\)的列向量为\(\boldsymbol{R}^{n}\)的基,那么对于线性变换\(T:\ \boldsymbol{R}^{n} \longrightarrow \boldsymbol{R}^{n}, \boldsymbol{u} \longmapsto A\boldsymbol{u}\)\(C\)为坐标转换矩阵。

奇异值分解与线性变换

由于\(U\)\(V\)的列向量分别为\(\boldsymbol{R}^{m}\)\(\boldsymbol{R}^{n}\)的基向量,因此有以下定理成立

定理:

如果矩阵\(A\)可以进行奇异值分解,也就是\(A = U\Sigma V^{\mathrm{T}}\),那么对于线性变换\(T:\ \boldsymbol{R}^{n} \longrightarrow \boldsymbol{R}^{m}, \boldsymbol{u} \longmapsto A\boldsymbol{u}\)\(\Sigma\)为坐标转换矩阵。

证明:

由于\(\boldsymbol{u} = \boldsymbol{u}_{\mathrm{c}} + \boldsymbol{u}_{\mathrm{ln}}\),因此\(\boldsymbol{u} = V_{r}\boldsymbol{c}_{\mathrm{c}} + V_{n - r}\boldsymbol{c}_{\mathrm{ln}} = V\boldsymbol{c}\),从而 \[ U\boldsymbol{d} = A\boldsymbol{u} = AV\boldsymbol{c} = U\Sigma V^{\mathrm{T}} V \boldsymbol{c} = U\Sigma \boldsymbol{c} \] 由此不难看出,\(\Sigma \boldsymbol{c} = \boldsymbol{d}\),也就是说\(\Sigma\)在此时起到了坐标转换矩阵的效果。

寻找合适的基

摘要

  1. \(B_{\mathrm{in}}\)\(B_{\mathrm{out}}\)均为广义特征向量矩阵时,\(A\)变为Jordan标准型矩阵\(J = B^{-1}AB\)

引入

\(A\)仅有\(s\)个特征向量时(\(s < n\)),Jordan构造了额外的\(n - s\)个广义特征向量,从而使得Jordan标准型尽可能对角化。Jordan标准型满足:

  1. 矩阵中有\(s\)个分块,这些分块沿着对角线分布

  2. 每个块有一个特征值\(\lambda\),一个特征向量,以及在对角线上方有1

Jordan标准型

定义:

当矩阵\(A\)\(s\)个独立特征向量时,其与下面这种类型的矩阵相似 \[ J = B^{-1}AB = \begin{bmatrix} J_{1} & & \\ & \ddots & \\ & & J_{s} \\ \end{bmatrix} \] 其中,每一块都满足 \[ J_{i} = \begin{bmatrix} \lambda_{i} & 1 & & \\ & \ddots & \ddots & \\ & & \ddots & 1 \\ & & & \lambda_{i} \\ \end{bmatrix} \] 我们将形如\(J\)的矩阵称为Jordan标准型矩阵

注意,如果两个矩阵有相同的Jordan标准型,那么这两个矩阵相似。

复向量和复矩阵

本章总结

  1. \(\boldsymbol{R}^{n}\):有\(n\)个实参数的向量\(\longleftrightarrow\)\(\boldsymbol{C}^{n}\):有\(n\)个复参数的向量

  2. 长度:\(||\boldsymbol{x}||^{2} = \sum\limits_{i = 1}^{n} x_{i}^{n}\) \(\longleftrightarrow\) 长度:\(||\boldsymbol{x}||^{2} = \sum\limits_{i = 1}^{n} |z_{n}|^{2}\)

  3. 转置:\((A^{\mathrm{T}})_{ij} = A_{ji}\) \(\longleftrightarrow\) 共轭转置:\((A^{\mathrm{H}})_{ij} = \overline{A}_{ji}\)

  4. 内积:\(\boldsymbol{x}^{\mathrm{T}}\boldsymbol{y}\) \(\longleftrightarrow\)内积:\(\boldsymbol{u}^{\mathrm{H}}\boldsymbol{v}\)

  5. 正交性:\(\boldsymbol{x}^{\mathrm{T}}\boldsymbol{y} = 0\) \(\longleftrightarrow\)正交性:\(\boldsymbol{u}^{\mathrm{H}}\boldsymbol{v} = 0\)

  6. 对称矩阵:\(S = S^{\mathrm{T}}\) \(\longleftrightarrow\) Hermite矩阵:\(S = S^{\mathrm{H}}\)

  7. 正交矩阵:\(Q^{\mathrm{T}} = Q^{-1}\) \(\longleftrightarrow\) Unitary矩阵:\(U^{\mathrm{H}} = U^{-1}\)

  8. \(S = Q\Lambda Q^{\mathrm{T}}\)\(\Lambda\)为实矩阵) \(\longleftrightarrow\) \(S = U\Lambda U^{\mathrm{H}}\)\(\Lambda\)为实矩阵)

Hermite矩阵

以下是几条有关Hermite矩阵的性质:

  1. 如果\(S\)为Hermite矩阵,而\(\boldsymbol{z}\)为任意的复向量,那么\(\boldsymbol{z}^{\mathrm{H}}S\boldsymbol{z}\)为实数

  2. Hermite矩阵的特征值均为实数

  3. Hermite矩阵的特征向量均正交