cs_notes

MIT 18.06 Linear Algebra, Spring 2005

https://www.youtube.com/playlist?list=PLE7DDD91010BC51F8

An Interview with Gilbert Strang on Teaching Linear Algebra

Strang的视频观众数量众多

Strang教授的1806线性代数视频共有1806个,在OpenCourseWare上累计访问人次达一亿。他收到了来自世界各地学生的感谢邮件。

Strang的授课方式

Strang教授注重同学们一起思考问题。他不会直接给出答案,而是通过问问题带动学生思考。他会给问题多次思考时间,不会急着给出答案。

他会在板书上写符号,解释它们的含义,然后解释为什么该公式正确。他认为学生需要多次看到思路才能理解。

他会假装迷惑,问一些幽默的问题来保持课堂的轻松气氛。这有助于同学们更好地理解。

他在实时解题时,会显示自己的思路。即使遇到死胡同,也会展示给学生看,让他们知道这也很正常。

教授线性代数的一些技巧

Strang教授表示,授课时他会重新思考问题,这样可以自动意识到需要使用什么词汇和步骤。如果不用心思考,很可能说明讲得太快,没能与学生的思路保持联系。

他知道不能真正了解每个学生的思路,但如果总体保持对班级状况的意识,这对任何讲师来说都是重要的。

总结

Strang教授十分热爱数学和教学工作。他的视频受到全球数以亿计学习者的喜爱,这也是OpenCourseWare计划的成功之处。

2. 1. The Geometry of Linear Equations

介绍线性代数基本问题

线性代数最基本的问题就是解线性方程组。首先考虑方程数等于未知数数的情况,也就是方程组中方程的数目和未知数的数目相同。

行图片

行图片方法是一次看一个方程。以2x-y=0为例,当y=0时,x=0,得点(0,0)满足该方程。当x=1时,y应该是2,得点(1,2)也满足该方程。所有满足该方程的点都在一条直线上。

以-x+2y=3为例,当y=0时,x应该是-3,得点(-3,0)。假设x=-1时,y应该是1,得点(-1,1)也在直线上。将这两点连接成一条直线,就得到该方程的解。

通过求出满足两个方程的公共点(1,2),求得方程组的解。

列图片

列图片表示方程组为系数矩阵A的线性组合等于常量向量B。

以2x-y=0,-x+2y=3为例,其系数矩阵为$A=\begin{bmatrix}2&-1\\-1&2\end{bmatrix}$,未知数向量为$X=\begin{bmatrix}x\\y\end{bmatrix}$,常量向量为$B=\begin{bmatrix}0\\3\end{bmatrix}$。

要求AX=B,就是要找到合适的线性组合使A的第一列与第二列与B相等。通过求解得出,取X=1,Y=2的线性组合可以令AX等于B,即解为x=1,y=2。

用图形表示line性组合的概念。A的第一列为(2,-1),第二列为(-1,2),经过线性组合得出结果为(0,3),即B。

三元组例子

以2x-y=0,-x+2y-z=-1,-3z+4为三元组例子。介绍行图片和列图片分析方程组,以及系数矩阵形式表达这个问题。

3. 2. Elimination with Matrices

消元法解方程组

消元法是计算机软件包解决线性方程组最常用的方法。消元法通过系数矩阵A将解出的未知数矩阵X变换为上三角矩阵U,从而求出方程组的解。

消元法原理

消元法的原理是:通过对第一行方程乘以一个数并从第二行方程减去,可以消除第一个未知数X在第二行方程中的系数。如此反复,可以逐步将矩阵A变换为上三角矩阵U。

消元法步骤

  1. 以第一个方程的对应系数作为第一个主元素(pivot),将其框起来标注。

  2. 以主元素为基准,计算第二行方程需要乘以什么数使第一个未知数的系数变为0,执行减法操作完成消元。将结果位置标注为”21”。

  3. 检查是否有需要消元的位置,如果该位置系数已经为0,则跳过不操作。否则,选择对应主元素完成消元,标注位置。

  4. 反复执行步骤2和3,直到矩阵变换为上三角形式,即各主元下方元素全为0。

  5. 求出所有主元的值,这就是矩阵的行列式值。

消元法可能失败的情况

  1. 若主元位置的系数为0,需交换行顺序使主元位置获得非0值。

  2. 主元位置后续将出现0值,且该行以下没有可交换的非0值时,表明方程组无唯一解。

  3. 最后一步主元值为0,也表明方程组无唯一解。

回代法求解

消元结束后矩阵变为上三角形式U,此时可根据U逐步回代求得各未知数的值。

4. 3. Multiplication and Inverse Matrices

矩阵乘法规则

矩阵A和B的乘积结果为矩阵C,用公式表示为:

C=A×B

其中:

C中的每个元素Cij,由A的第i行与B的第j列对应元素的标量积求和得到:

Cij = Σk=1到NAik * Bkj

即C中的每个元素都由A的对应行与B的对应列对应元素相乘相加得到。

矩阵乘法的等价看法

矩阵乘法还可以用以下几种等价的看法:

以列为单位

将B视为长度为P的向量组,每个向量对应B的一列。则C的每一列就是A乘以B对应一列向量。

以行为单位

将A视为长度为M的向量组,每个向量对应A的一行。则C的每一行就是A对应一行向量乘以B。

行列分块相乘

如果A和B都可以分为块矩阵,则C可以看作是A每个块与B对应块积相加得到。

列向量与行向量的乘积

如果将A看作一个列向量,B看作一个行向量,则他们的乘积是一个规模为M×N的矩阵,每个元素都是A对应元素乘以B对应元素。

该矩阵的列空间是A对应的一维向量空间,行空间是B对应的一维向量空间。

逆矩阵

逆矩阵可以用来解线性方程组,构成逆矩阵的条件和 computed方式将在后面详细说明。

5. 4. Factorization into A = LU

矩阵的逆矩阵

如果A和B都是可逆矩阵,那么A*B的逆矩阵为$B^-1* A^-1$,但需要注意顺序。

矩阵转置后的逆矩阵

如果A是可逆矩阵,那么A转置后的逆矩阵为(A的逆矩阵转置),亦即$(A^-1)^T$。

二乘二矩阵的LU分解

考虑二乘二矩阵A:

A = [2 1; 8 7]

进行消元得到上三角矩阵U:

U = [2 0; 3 3]

相应的下三角矩阵L为:

L = [1 0; 4 1]

两者乘积恰为原矩阵A:

A = L*U

三乘三矩阵的LU分解

对三乘三矩阵A进行消元,步骤如下:

  1. 使用E21矩阵将A的第二行第一列元素变为0;

  2. 使用E31矩阵将A的第三行第一列元素变为0;

  3. 使用E32矩阵将A的第三行第二列元素变为0;

得到上三角矩阵U。

相应的下三角矩阵L为三个变换矩阵的逆顺序乘积:

L = E32^-1 * E31^-1 * E21^-1

这样就可以表示三乘三矩阵A的LU分解为:

A = L * U

6. 5. Transposes, Permutations, Spaces R^n

指数

行列式分解与排列矩阵

排列矩阵

转置

向量空间

7. 6. Column Space and Nullspace

向量空间

向量空间是一组向量,其中可以进行向量加法和标量乘法操作,并且结果依然在该组向量中。

例如,三维欧几里德空间R3就是一个向量空间。平面和线也都是R3中的子空间,因为在这两个空间中进行向量加法和标量乘法,结果依然位于该子空间中。

矩阵的列空间

给定矩阵A,其列空间是A矩阵各个列向量以及它们的线性组合构成的子空间。

例如对于矩阵A = [[1,2,3,4],[1,1,1,1],[2,3,4,5]],它是一个4×3矩阵,即有4行3列。其列空间是R4空间中的一个子空间,表示三个列向量及其线性组合构成的子集。

矩阵方程是否总能求解

对于方程Ax = B,不一定对任意的右端B都有解。因为A矩阵只有3列,即三个未知量,但方程包含4个等式,仅有的三个未知量无法满足四个等式。

只有当右端B处于列空间时,方程Ax = B才可能有解。这是因为列空间只表达了由A矩阵三列中向量的线性组合可以达到的范围,而不是R4整个空间。

结论

矩阵A的列空间是子空间,它不会是R4整个空间,因为使用三个向量无法构成四维整个空间。但对某些特定的右端B,方程Ax = B是可能有解的。

8. 7. Solving Ax = 0: Pivot Variables, Special Solutions

电消去法求解方程组Ax=0

对于一个方程组Ax=0,我们可以使用电消去法来求解它的零空间。电消去法的主要思想是找出A矩阵的基础变量(pivot variables),也就是那些可以作为权变量(pivot)进行消去的变量。这样就把原方程组变换成阶梯形式。

通过电消去,我们可以得到A矩阵的秩R,也就是基础变量的个数。对应的,则有N-R个自由变量(free variables)。

对于每一个自由变量,我们可以给它定值为0或1,然后通过后代替求出基础变量的值,这样就得到了一个满足Ax=0的特殊解(special solution)。

所有这些特殊解的线性组合,就构成了A矩阵的零空间,也就是Ax=0的所有解集。换句话说,零空间包含所有特殊解的线性组合。

总之,电消去法给出了一种系统的方法来求解线性方程组Ax=0,其关键步骤是:

  1. 通过列变换进行电消去,求出A矩阵的秩R

  2. 根据R值判断基础变量和自由变量的个数

  3. 给自由变量指定值,求出基础变量的值,得到特殊解

  4. 特殊解的线性组合构成零空间

9. 8. Solving Ax = b: Row Reduced Form R

求解线性方程组ax=b的完整解

线性方程组ax=b是否有解的条件是右手边b必须在a的列空间中。

具体来说,如果方程组a的某一行的结合为0行,那么b中对应项的结合也必须为0。

找到一个特殊解xp的方法是:

  1. 设定自由变量为0
  2. 用进位法求解支配变量,得到一个特殊解

整体解是:

x = xp + xn

其中xp为特殊解,xn为零空间中解向量的线性结合。

一个例子

考虑方程组:

\begin{bmatrix}
1&0&2&0\\
0&2&0&2
\end{bmatrix}
\begin{bmatrix}
x_1\\
x_2\\
x_3\\
x_4
\end{bmatrix}
=
\begin{bmatrix}
1\\
3
\end{bmatrix}
  1. 自由变量x_2和x_4设为0

  2. 求支配变量x_3=3/2,x_1=-2

  3. 零空间中两个基向量为$[1,0,0,1]^T,[0,1,-2,0]^T$

所以整体解为:

$x = [-2,0,3/2,0]^T + c_1[1,0,0,1]^T + c_2[0,1,-2,0]^T$

10. 9. Independence, Basis, and Dimension

独立性

向量V1和2V1是相关的,因为2V1就是V1的2倍。

向量V1和全0向量是相关的,因为全0向量可以看作是V1与0相乘的组合。

如果矩阵A的列向量是V1、V2、V3,而这些向量在二维空间中,那么它们一定是相关的。因为可以通过A的零空间得到非零结合C1V1+C2V2+C3V3=0。

两个向量V1和V2若任意结合都不等于0向量,则它们是独立的。

三个或更多向量在某一维空间中,如果通过它们的任意组合不能得出0向量,则它们是独立的;否则它们是相关的。

构成空间

若一组向量V1、V2、…、VN的所有线性组合构成了一个空间S,则这组向量是构成这个空间S的。

矩阵A的列向量构成了A的列空间。

如果一个空间的某组向量是独立的且构成这个空间,那么这组向量就是这个空间的一个基。

11. 10. The Four Fundamental Subspaces

四个基础子空间

矩阵的四个基础子空间如下:

四个子空间的特征

如何求取基

12. 11. Matrix Spaces; Rank 1; Small World Graphs

矩阵空间

离开上一课,讨论了一些向量空间,向量中包含的对象不是通常意义上的向量,但是它们允许向量运算如加法和数乘。作为例子,考虑所有3×3矩阵的矩阵空间M。

M的标准基底包含9个矩阵,每个矩阵一个位置为1,其他位置为0。所以M的维度为9。

对角矩阵空间

考虑对称3×3矩阵的子空间S。S的维度为6,原始基底中符合对称性的矩阵有3个可以构成S的基底。

考虑上三角3×3矩阵的子空间U。U的维度也为6,原始基底中几个矩阵恰恰构成了U的基底。

交集和和

S和U的交集为对角矩阵空间D,维度为3。

S和U的和为M本身,因为任意矩阵都可以表示为对称矩阵与上三角矩阵的和。

向量空间的维度关系遵循:

dim(S)+dim(U)=dim(S∩U)+dim(S+U)

微分方程解空间

考虑二阶微分方程$y''+y=0$。它的解空间同样是一个向量空间,基底可以取为$\sin x$与$\cos x$。此向量空间的维度为2。

一般来说,二阶微分方程的解空间维度均为2。线性差分方程的课程实际上就是求解空间的基底。

13. 12. Graphs, Networks, Incidence Matrices

概述

这节课主要介绍图、网络和关联矩阵的应用。

图的定义

图有节点和边构成。节点代表对象,边代表对象之间的关系或连接。

关联矩阵

关联矩阵反映图中边和节点的关系。每行对应一条边,每列对应一个节点。若边从第i个节点出发到第j个节点,则矩阵在第i行第j列位置的值为1,其他位置为0。

例子

讲师画了一个示例图,有4个节点1、2、3、4,和5条边。根据此图画出5×4的关联矩阵。

关联矩阵的null空间

null空间描述哪些节点电位值列向量的组合能使电位差为0。

通过解AX=0公式来求null空间。发现只有一个基向量[1,1,1,1]。这意味着如果各节点电位相同,电位差将为0。

即如果X=[c,c,c,c],其中c是任意常数,则AX=0。这说明电位可以加上一个任意常数而不改变电位差。

这也对应到温度或其他物理量的测量中,能加入一个任意基准值而不影响实际关系。

固定一个节点电位

如果固定最后一个节点电位为0,则其对应列消失,关联矩阵列变为独立。这相当于以地面为电位基准。

14. 13. Quiz 1 Review

矩阵与向量空间

阶梯形矩阵与完全解

矩阵秩

15. 14. Orthogonal Vectors and Subspaces

正交向量

正交向量指向量之间的角度为90度。

判断两个向量是否正交,可以计算它们的点积。如果点积为0,则这两个向量正交。

$ \mathbf{x}^\top\mathbf{y}=0 $

其中$\mathbf{x}$和$\mathbf{y}$ são 两个向量。

向量的长度定义为:

$ \lVert\mathbf{x}\rVert^2=\mathbf{x}^\top\mathbf{x} $

零向量与任何向量都正交。

正交子空间

两个子空间$S$和$T$之间为正交,如果:$

\[\forall \mathbf{x}\in S,\forall \mathbf{y}\in T, \mathbf{x}^\top\mathbf{y}=0\]

也就是说,一个子空间中的任意向量都与另一个子空间中的任意向量正交。

如果两个子空间有非零交集,则它们不是正交的。

比如在三维欧式空间中,XY平面和XZ平面就是正交的,因为它们没有交集。而如果两个平面有交线,则它们不是正交的。

正交基

若子空间内所有基向量都互相正交,则这个基称为正交基。

16. 15. Projections onto Subspaces

介绍投影

老师开始讲述投影的概念。投影是将一个向量投影到某个子空间上找到最近的点。

一维投影

老师先以二维情况下,向量B投影到一条直线a上为例。

  1. 要找到向量B到直线a上最近的点P
  2. 该点P必须与直线a成正交
  3. 得到投影公式:
    • X = a^T * B / a^T * a ,X是标量
    • 投影点P = X * a

一维投影矩阵

将一维投影用矩阵表达:

多维投影

老师提出,想将概念推广到高维情况:

总结

本节介绍了向量到子空间的投影问题。分析了一维子空间情况下的投影特点,并以矩阵方式进行推广,为后续线性代数问题奠定基础。

17. Projection Matrices and Least Squares

投影矩阵公式

投影矩阵公式为:

\[P=A(A^TA)^{-1}A^T\]

其中A的列向量组成了子空间的基,投影矩阵P可以将向量投影到子空间上。

两个极端情况

  1. 当向量B在子空间中时,即B的形式为Ax,将B代入投影矩阵P中,会得到B本身。

  2. 当向量B与子空间正交时,即B在A转置的零空间中,将B代入投影矩阵P中,会得到0。

直线拟合问题

给定点集{(1,1),(2,2),(3,2)},试求通过这些点的“最佳”直线。

由于点不完全共线,无法找到一条直线完全通过所有点。此时定义“最佳直线”为使总误差最小的直线。

将问题建模为:

y = cx + d

误差e=(y-(cx+d))^2

总误差E=Σe

通过最小化总误差E找到最佳斜率c和常数项d。这就是最小二乘法中的线性回归问题。

总结

投影矩阵可以将向量投影到子空间上,极端情况下能够正确反映向量与子空间的关系。最小二乘法通过定义总误差函数,找出使总误差最小的参数值,实现数据拟合。

18. 17. Orthogonal Matrices and Gram-Schmidt

正交列向量和正交子空间

正交向量是指两个向量的内积为0。

正交子空间指行空间和零空间这样的子空间。

正交基底和正交矩阵

正交基底是指每个基向量与其他每个基向量的内积均为0。

正交矩阵指具有正交列的矩阵。

Q矩阵

若矩阵Q的各列向量互相正交单位化,称Q为正交矩阵。

计算Q转 pose矩阵Q,得到单位矩阵I。

若Q为方矩阵,则Q转导=Q的逆矩阵。

例子

  1. 任意置换矩阵的列向量均互相正交,计算其Q转 pose Q结果为单位矩阵I。

  2. 取两个正弦余弦函数组成的矩阵,其列向量也互相正交。

  3. 将多个正交列向量组成更大矩阵,如采用±1组成Hadamard矩阵。

构造正交矩阵的方法

  1. 随机给定基向量后进行正交化处理得到正交基。

  2. 格拉姆-施密特正交化算法将非正交基转换为正交基。

正交矩阵的好处

  1. 方便计算矩阵的投影,投影矩阵直接是Q转 pose矩阵Q。

  2. 避免溢出、下溢问题,计算更稳定。

  3. 用于许多数值线性代数算法。

构造正交矩阵的另一例子

给出2×3矩阵作为一个矩形正交矩阵的例子。介绍如何通过标准化使其列向量单位化的过程。

基本概念

求行列式

行列式是一个关联于每个方阵的唯一标量。我们用Det(A) 或 A 表示矩阵A的行列式。

行列式能检验矩阵是否可逆。如果行列式不为0,矩阵是可逆矩阵;如果行列式为0,矩阵是奇异矩阵。

行列式性质

  1. 单位矩阵的行列式为1。

  2. 交换两行,行列式的符号翻转。

  3. 若将某一行乘以一个因子,则行列式也乘以这个因子。

  4. 若两行相等,则行列式为0。

  5. 使用行变换(比如消元)不改变行列式的值。

  6. 若行全为0,则行列式为0。

求行列式公式

通过以上六个性质,我们可以推导出求任意大小矩阵行列式的公式。

两个例子

  1. 对两个相同的2×2矩阵进行换行,根据性质2,其行列式符号会翻转,但值不变,所以为0。

  2. 对一个2×2矩阵进行一行变换,根据性质3和5,行列式值不变。通过分块展开式,也能证明行列式值不变。

计算方法

通过以上性质,我们可以确定求行列式的通用算法是:

  1. 对矩阵进行行变换,使其变为上三角形式。

  2. 上三角形式矩阵的行列式结果即为对角线元素的乘积。

  3. 行变换不影响行列式值,所以原矩阵和上三角矩阵的行列式值相同。

所以我们只需计算对角线元素的乘积,即得到原矩阵的行列式值。

这提供了一个高效且通用的计算行列式的值方法。

应用

行列式有很多重要应用:

  1. 检验矩阵是否可逆。

  2. 计算线性方程组的唯一解存在性。

  3. 特征值和特征向量问题。

  4. 计算多边形面积和多面体体积等几何问题。

  5. 物理统计力学中的顿振数问题等。

总之,行列式是线性代数的基本概念之一,在数学、物理等许多领域都有重要应用。

20. 19. Determinant Formulas and Cofactors

決定式的三個性質

決定式有三個基本性質:

  1. 如果矩陣是單位矩陣,則其決定式為1。

  2. 交換兩行,決定式的正負號會調換。

  3. 對某一行進行線性變換,不會影響決定式的值。

2x2矩陣的決定式公式

利用上述三個性質,可以推出2x2矩陣的決定式公式:

a b
-c d

其決定式值為:ad - bc

3x3矩陣的決定式公式

同樣用上述三個性質,可以將3x3矩陣分解成若干2x2矩陣,從而推出3x3矩陣的決定式公式。

3x3矩陣的決定式為各2x2子矩陣的決定式和,正負號由行列交換次數決定。

nxn矩陣的通用決定式公式

利用2x2和3x3矩陣的例子,可以推廣出nxn矩陣的通用決定式公式:

determinant(A) = Σ(+ or -)a11C11 + a12C12 + … + annCnn

其中,+或-符號由行列交換次數決定,Cii為子矩陣i的相對複數或聯立子。

Cramer’s Rule, Inverse Matrix, and Volume

这是第20课,是关于行列式的应用的最后一课。在前两课中,我们已经得出了行列式的公式和性质。现在,我们将学习如何使用行列式。

行列式将矩阵的所有信息汇聚成一个数,从中可以得到许多公式。例如过去我们计算逆矩阵时是通过高斯-约当消元法,但并不知道其背后的数学原理是什么。

2x2矩阵的逆矩阵公式我们已经知道,是1/D乘以矩阵。现在我们想看3x3和更大规模矩阵的逆矩阵公式。

将注意力集中在子行列式上。2x2矩阵逆矩阵中的D就是主子行列式,其余项就是对应的子行列式。

一般来说,n阶矩阵A的逆矩阵公式是1/det(A)乘以A的子行列式矩阵的转置。

为了验证这个公式是否正确,我们计算A乘以其逆矩阵,应该得到单位矩阵。

我们发现,矩阵A的每一行乘以对应的子行列式矩阵的对应列,都会获得det(A)。

而矩阵A的一行乘以另一行对应的子行列式矩阵,相当于计算一个行重复的奇异矩阵的行列式,因此结果必为0.

这就是逆矩阵公式背后的原理。该公式使用子行列式的性质很好地描述了逆矩阵,而无需使用高斯消元法等算法。该公式也在数学上是严谨的。

22. 21. Eigenvalues and Eigenvectors

本节内容概述

本节主要介绍特征值和特征向量的概念。首先通过乘以矩阵的向量来说明特征向量的定义,特征向量要求矩阵乘以向量后,向量方向与原向量一致,或相反。然后给出特征向量和特征值的数学定义公式。

特征矩阵的定义

特征向量X满足矩阵A乘以X等于X乘以一个数λ,即满足公式:

AX = λX

这里λ就是这个特征向量X对应的特征值。

特征值方程

从AX=λX这个定义出发,可以得出特征值λ必须满足矩阵A减去λ乘以单位矩阵后的行列式为0,也就是:

det(A-λI)=0

这个式子就是特征值方程。

特征值与矩阵对角元素和的关系

n阶矩阵的特征值总数为n,特征值的和等于矩阵对角元素和,称为迹(trace)。

例子1:投影矩阵

投影矩阵P的特征向量包括:

  1. 在投影平面内的向量,对应的特征值是1

  2. 按pendicular于投影平面方向的向量,对应的特征值是0

例子2:置换矩阵

置换矩阵通过调换向量各分量实现置换。其特征向量包括:

  1. (1,1)T,对应的特征值是1

  2. (-1,1)T,对应的特征值是-1

总结

通过详细定义和例子,系统讲解了特征值和特征向量的计算方法。

23. 22. Diagonalization and Powers of A

对角化与特征值

特征方程为Ax=λx,找到特征值λ和特征向量x。

将特征向量当作矩阵S的列向量,这个矩阵称为特征向量矩阵。

然后看aS的计算:

aS = SΛ

其中,Λ为特征值对角矩阵,对角线元素依次为λ1,λ2,…,λn。

这个结果表示,矩阵A作用在特征向量上,等于特征值乘以该特征向量。

将上式左乘S−1,得到对角化表达式:

S−1aS = Λ

这表示通过特征向量变换,原矩阵A变换为对角矩阵Λ。

这需要特征向量线性无关,且个数足够(等于矩阵阶数n),这时特征向量矩阵S可逆,才能完成对角化。

少数矩阵无法完成对角化,因为特征向量线性相关或个数不足。

矩阵幂的特征值和特征向量

取A二次方:

A^2x = λ^2x

因此,A^2的特征值是原特征值的平方,特征向量不变。

类似地,对任意A^k:

这说明特征值和特征向量给出了矩阵幂的内在结构。

稳定矩阵的条件

如果所有特征值的绝对值小于1,则随着k增加,A^k将趋于0。

这就是矩阵稳定的条件。

可对角化矩阵的条件

如果所有特征值都不同,则矩阵一定可对角化。

这是最简单直观的情况。少数矩阵因特征值重复或特征向量线性相关而无法完成对角化。

24. 23. Differential Equations and exp(At)

求解一阶常系数线性微分方程组

此部分讨论如何求解一阶常系数线性微分方程组。

如果正确求解,它会直接变成线性代数问题。关键思想是常系数线性方程组的解是指数函数。如果将答案假设为指数函数,就需要求出指数下标里的项和指数前面的乘数,这就是线性代数问题。

具体例子

考虑一个二元方程组:

\[\begin{cases} \dot{u}_1 = -u_1 + 2u_2\\ \dot{u}_2 = u_1 - 2u_2 \end{cases}\]

其系数矩阵为:

\[\begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix}\]

求特征值和特征向量

  1. 直接看出该矩阵是奇异矩阵,所以一个特征值为0。

  2. 通过矩阵对角线元素和,另一个特征值为-3。

  3. 对应特征值0的特征向量为$\begin{bmatrix}1\\2\end{bmatrix}$

  4. 对应特征值-3的特征向量可以取$\begin{bmatrix}1\\-1\end{bmatrix}$

求解过程

方程组的通解为:

\[u(t)=c_1e^{0t}\begin{bmatrix}1\\2\end{bmatrix}+c_2e^{-3t}\begin{bmatrix}1\\-1\end{bmatrix}\]

其中,$c_1$和$c_2$通过初值条件求得。

这里给出初值条件$u(0)=\begin{bmatrix}1\\0\end{bmatrix}$,则得:

\[c_1=1,\\ c_2=0\]

从而通解为:

\[u(t)=\begin{bmatrix}1\\2\end{bmatrix}+0e^{-3t}\begin{bmatrix}1\\-1\end{bmatrix}=\begin{bmatrix}1\\2\end{bmatrix}\]

总结

  1. 一阶常系数线性微分方程组的通解是特征值与特征向量的指数函数。

  2. 初始条件可以求出所含常数。

  3. 零特征值对应平稳态解,非零特征值对应呈指数衰减或增加的转移过程。

25. 24. Markov Matrices; Fourier Series

Markov矩阵

Markov矩阵有两个属性:

  1. 每个元素都大于或等于0.

  2. 所有的列相加等于1.

如果一个矩阵满足这两个条件,就是Markov矩阵.

Markov矩阵的特征值

Markov矩阵有以下特征值:

  1. λ=1是它的一个特征值.如果一个矩阵的列相加为1,说明λ=1是它的特征值.

  2. 除了λ=1,其他特征值的绝对值都小于1.

Markov矩阵的特征向量

对应λ=1的特征向量x1,其每个元素都大于或等于0.也就是说,steady state是非负的.

求证λ=1是特征值

若想证明λ=1是特征值,可以将矩阵减去单位矩阵I,得到A-I矩阵.

如果A-I矩阵的列相加为0,则该矩阵是奇异矩阵.

而奇异矩阵说明,我们原来从对角线上减去的那个数,就是矩阵的特征值.

在这个例子中,我们从对角线上减去的是1.所以λ=1就是特征值.

Fourier級数

Fourier級数是一个奇异理想的应用粘性投影定理.它可以表示任意周期函数为正弦余弦函数的线性组合.

24b. Quiz 2 Review

正交性与正交矩阵

投影

特征值与特征向量

差分方程

行列式

特征值与特征向量(续)

投影线性拟合

27. Symmetric Matrices and Positive Definiteness

对称矩阵的主要特征

常规矩阵的特征值分解

在一般情况下,任何矩阵A都可以表示为:

A = SΛS^(-1)

其中:

对称矩阵的特征值分解

对对称矩阵A来说,其特征值分解具有以下特点:

因此对称矩阵A的特征值分解可以表示为:

A = QΛQ^T

总结

28. 26. Complex Matrices; Fast Fourier Transform

复数向量与矩阵

傅里叶矩阵

傅里叶矩阵是最重要的单位矩阵之一。它用于傅里叶变换。

快速傅里叶变换FFT

FFT是快速计算傅里叶变换的算法,已经普遍应用于各个领域。

Positive Definite Matrices and Minima

测试正定矩阵的方法

给出大小为n×n的矩阵A,有以下几种方法可以判断A是否为正定矩阵:

  1. 判断A的特征值是否全为正数。如果所有特征值都大于0,则A为正定矩阵。

  2. 计算A的各阶主子式的行列式值,如果1阶、2阶、直到n阶主子式的值都大于0,则A为正定矩阵。

  3. 计算A的秩分解形式,如果对角线元素都大于0,则A为正定矩阵。

  4. 计算对任意向量x的 Ax^T x表达式,如果对于任意x,Ax^T x的值都大于0,则A为正定矩阵。这也是正定矩阵的定义。

正定矩阵的意义

正定矩阵这一概念将本课程各个知识点联系起来,如特征值、行列式、秩分解等。正定矩阵还与最小值问题紧密相关。给出函数f(x)=x^T Ax时,如果A为正定矩阵,则f只有一个全局最小值,即当x为0向量时。

二次型与几何意义

对任意向量x,计算Ax^T x时,得到的是一个二次型。如果A为正定矩阵,该二次型对应一个开叶曲面,其各条坐标轴方向上的截面都是椭圆。而如果A不是正定矩阵,该二次型对应的可能是马赛克曲面。

正定矩阵的概念不仅在线性代数中很重要,其几何意义也值得关注。它与椭圆曲面等具有很深刻的内在联系。

30. 28. Similar Matrices and Jordan Form

相似矩阵

相似矩阵指的是两个方阵A和B,存在一个可逆矩阵M,使得:

B = M^-1AM

也就是说,通过矩阵M将A变换成B。

例子

假设矩阵A是:

A = [[2, 1], [1, 2]]

A的特征值是3和1,特征向量很容易求出。那么A与特征值矩阵Λ是相似的:

Λ = [[3, 0], [0, 1]]

除此之外,我们也可以取任意可逆矩阵M,例如:

M = [[1, 4], [0, 1]]

计算M^-1AM得:

B = [[2, 9], [1, 6]]

那么A与B也是相似矩阵。

相似矩阵的共同点

相似矩阵的重要共同点是它们具有相同的特征值。

也就是说,对于相似矩阵A和B,它们的特征值完全相同。这就是本章研究相似矩阵的主要原因。

Jordan标准形

视频还提到了下周将介绍Jordan标准形,它是相似矩阵家族中“最简单”的一员,因为它是对角矩阵形式。Jordan标准形在线性代数中已经成为一个中心概念。

31. 29. Singular Value Decomposition

SVD分解

SVD全称为奇异值分解,是对矩阵最好的因子分解。

SVD表达

对任意矩阵A,存在正交矩阵U,产生矩阵Σ和正交矩阵V,使得:

A = UΣV^T

其中:

SVD特点

计算SVD

  1. 计算A^T * A矩阵,获得其特征值和特征向量,特征向量即为V矩阵,特征值平方根为奇异值
  2. 计算A * A^T矩阵,获得其特征向量,为U矩阵

例题解答

考察2×2矩阵A = [[4,-3],[4,3]]的SVD分解。

  1. 计算A^T * A = [[16,7],[7,25]]
  2. 特征值分别为5,25,特征向量对应V矩阵
  3. A * A^T同理得U矩阵
  4. 奇异值取平方根Σ=[√5, √25]

所以A的SVD分解为: A = UΣV^T

32. 30. Linear Transformations and Their Matrices

线性变换

线性变换是从一个向量空间到另一个向量空间的映射,满足以下两个性质:

  1. 对于向量V和W,以及标量c,有T(cV + W) = cT(V) + T(W)

  2. 对于标量c,有T(cV) = cT(V)

线性变换的例子

投影变换

将平面内任意向量投影到某条直线上。

旋转变换

将平面内任意向量旋转45度。

矩阵表示线性变换

任何矩阵A都可以表示一个线性变换:

T(V) = AV

这个线性变换满足上述两个性质。

坐标下的线性变换

要计算线性变换,需要引入坐标系统。选择一个基底后,线性变换就对应一个矩阵。

例如,从R3到R2的线性变换,对应的矩阵形状应为3×2。

例子

假设线性变换T(V) = AV,矩阵A为:

A = [[1, 0], [0, -1]]

则该线性变换将平面内所有点下的Y坐标取反,就是将输入房子「翻转」。

总之,线性变换提供了无坐标的概念描述,但要计算,必须对应到具体矩阵,通过基底引入坐标系统。

33. 31. Change of Basis; Image Compression

基变换与图像压缩

教授介绍本课将讨论线性代数中基变换与图像压缩的应用。

图像压缩的原理

图像通常由许多像素点构成,每个像素点用一个数值代表其亮度或颜色。一张512x512像素的黑白照片,每个像素用8位(0-255)表示亮度值,那么整张照片就需要512x512x8位=256兆字节的数据来存储全部信息。

但实际上,相邻像素点的亮度值通常很接近,存在冗余。因此可以通过基变换来压缩图像数据。

基变换

基变换就是改变原问题的基座,让问题在新基座下可以用更少的参数描述。

常用的基变换包括:

  1. 全1基座:一个全1向量可以直接表示全同色图像。

  2. 正负交替基座:一个正负交替的向量可以表示正负间隔着颜色的图像。

  3. 半正半负基座:半部分1半部分-1的向量可以表示左右两半图像颜色不同的图像。

  4. 傅立叶基座:包含常数项向量(全1向量,表示平均颜色)和不同频率的正弦波向量。傅立叶变换更适用于自然图像。

JPEG压缩

JPEG算法采用傅立叶基变换来压缩图像:

  1. 将图像数据划分为多个8x8像素的块。

  2. 对每个块进行傅立叶变换,将其转换到傅立叶基座下。

  3. 保留变换后值大的傅立叶基座,删除值小的基座,达到去除图像中细节的目的。

  4. 反变换回空间域,构成压缩后的图像。

大多数频率成分被过滤后,图像与原图的差异很小,但数据量大幅压缩。这是一种有损压缩的典型应用。

34. 32. Quiz 3 Review

复习重点概述

这次第三次考试将考察从第一章到第六章的内容。第七章线性变换将留到期末考试。今天主要复习第六章内容。

已掌握知识回顾

上次考试已经掌握了如何找到特征值和特征向量。通过计算求解阻尼$A-\lambda I=0$以获得特征值$\lambda$,然后对应特征值的特征向量组成特征向量矩阵。

新知点梳理

差分方程

给出3阶差分方程$U’(t)=AU(t)$,其中$A$为3阶矩阵。求解的通解形式为\(U(t)=c_1e^{\lambda_1 t}\mathbf{v}_1 + c_2e^{\lambda_2 t}\mathbf{v}_2 + c_3e^{\lambda_3 t}\mathbf{v}_3\)首先需要找到特征值$\lambda$和特征向量$\mathbf{v}$。

对称矩阵

对称矩阵$A=$的特征值都是实数。且无论特征值是否重复,都可以找到完整的特征向量基础,且特征向量可以选择成正交。此时有$A=Q\Lambda Q^T$的对角化形式。

正定矩阵

当特征值全部大于0时称为正定矩阵。

相似矩阵

相似矩阵具有相同的特征值,即使变换矩阵$M$改变了特征向量,但不改变特征值。

SVD奇异值分解

奇异值分解可以将矩阵分解为三个矩阵乘积的形式。

例题解答

给出3阶反对称矩阵$A$,计算其特征值和特征向量。

由于$A$为反对称矩阵,其特征值全部为纯虚数,即$\lambda_1=0,\lambda_{2,3}=\pm\sqrt{2}i$。特征向量分别为$\mathbf{v}_1=[1,0,0]^T,\mathbf{v}_2=[0,1,1]^T/\sqrt{2},\mathbf{v}_3=[0,1,-1]^T/\sqrt{2}$。

此外,反对称矩阵的定期解周期为$\pi\sqrt{2}$。

矩阵指数的计算

计算行列式指数$e^{At}$的方法是,根据特征值$\lambda_i$和特征向量$\mathbf{v}_i$,有:$e^{At}=Pdiag(e^{\lambda_1 t},e^{\lambda_2 t},...)P^{-1}$其中$P$是特征向量矩阵,$diag(...)$表示对角矩阵。

35. 33. Left and Right Inverses; Pseudoinverse

可逆矩阵与左右逆

一个方阵矩阵如果行列秩相等即为可逆矩阵。其两边逆矩阵存在,左乘右乘都能得到单位矩阵。

全秩矩阵的左右逆

如果矩阵的列独立但行可能不独立,称为全秩列矩阵。这种矩阵的秩等于列数,其列空间占整个空间但行空间可能小于整个空间。此时存在左逆矩阵但不存在右逆矩阵。

设A为m×n全秩列矩阵,则存在左逆矩阵A−1左乘A可得单位矩阵,但A右乘A−1左不得单位矩阵。

全秩行矩阵的左右逆

如果矩阵的行独立但列可能不独立,称为全秩行矩阵。这种矩阵的秩等于行数,其行空间占整个空间但列空间可能小于整个空间。此时存在右逆矩阵但不存在左逆矩阵。

设A为m×n全秩行矩阵,则存在右逆矩阵AA−1右乘A可得单位矩阵,但A−1左乘A左不得单位矩阵。

最一般情况下的左右逆

一般非方阵矩阵的秩小于行列中较小的一者。此时矩阵的行空间和列空间都可能不占满整个空间,且它们和其对应正交空间构成直角四个子空间。此种情况下既不存在左逆也不存在右逆,但可以求伪逆矩阵近似其逆。

36. 34. Final Course Review

一、矩阵a的性质

给出一个a3×n矩阵a:

  1. 矩阵a有三行,列数未知,记为n
  2. 有个等式ax=一零零,没有解
  3. 有个等式ax=零一零,唯一解

根据这些信息可以推断:

  1. 矩阵a行数为3
  2. 如果没有解,则秩小于行数,所以秩R<3
  3. 如果唯一解,则零空间只有零向量,所以R=n
  4. 所以1≤R≤min(3,n)

二、A转置A性质

  1. 如果矩阵a列线性独立,则A转置A可逆
  2. 对应示例矩阵,A转置A为单位矩阵I2×2,是可逆矩阵

三、AA转置性质

  1. AA转置总是对称矩阵
  2. 对应示例矩阵,AA转置矩阵为3×3矩阵,秩为2,不是正定矩阵
  3. AA转置是半正定矩阵

四、行列式变换性质

  1. 对非方阵,转置后行列式不等于原矩阵行列式

五、Ax=b方程组解法

  1. 如果A行线性独立,则方程组Ax=b至少有一个解
  2. 如果矩阵A秩为R,零空间维数为m-R,则方程组Ax=b解非独一,零空间维数为m-R

六、具体方程解法

解方程组ax=v1-v2+v3,其中a矩阵列向量为v1,v2,v3