向量的正交
两两正交的非零向量组成的向量组称为正交向量组,若\(a_{1},a_{2},\cdots,a_{r}\) 是两两正交的非零向量,则\(a_{1},a_{2},\cdots,a_{r}\) 线性无关。例如:己知三维空间\(R^{3}\) 中的两个向量\(: \boldsymbol{a}_1= \begin{bmatrix} 1\\ 1\\ 1\end{bmatrix}\), \(\boldsymbol{a}_2= \begin{bmatrix} 1\\ – 2\\ 1\end{bmatrix}\) 正交,试求一个非零向量\(a_3\) ,使得\(a_1,a_2,a_3\) 两两正交。
解题思路:内积等于0时,意味着两个向量正交。
显然\(a_1\perp a_2\) ,设\(a_{3}=(x_{1},x_{2},x_{3})^{\mathrm{T}}\) ,若\(a_{1}\perp a_{3},a_{2}\perp a_{3}\) ,则:
$$\begin{aligned}
&[a_{1},a_{3}]=a_{1}^{\mathrm{T}}a_{3}=x_{1}+x_{2}+x_{3}=0 \\
&[a_{2},a_{3}]=a_{2}^{\mathrm{T}}a_{3}=x_{1}-2x_{2}+x_{3}=0 \\
&Ax=\begin{bmatrix}1&1&1\\1&-2&1\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}
\end{aligned}$$
解系数矩阵:
$$\begin{bmatrix}1&1&1\\1&-2&1\end{bmatrix}\sim\begin{bmatrix}1&1&1\\0&-3&0\end{bmatrix}\sim\begin{bmatrix}1&1&1\\0&1&0\end{bmatrix}\sim\begin{bmatrix}1&0&1\\0&1&0\end{bmatrix}$$
$$\text{得}\begin{cases}x_1=-x_3\\x_2=0\end{cases}$$
从而有基础解系\(\begin{bmatrix}-1\\0\\1\end{bmatrix}\),令\(a_3=\begin{bmatrix}-1\\0\\1\end{bmatrix}\)。
规范正交基: \(n\) 维向量\(e_{1},e_{2},\cdots,e_{r}\) 是向量空间\(V\subset R^n\) 中的向量,满足:
(1) \(e_{1},e_{2},\cdots,e_{r}\) 是向量空间\(V\) 中的一个基;
(2) \(e_{1},e_{2},\cdots,e_{r}\) 两两正交;
(3) \(e_{1},e_{2},\cdots,e_{r}\)。则称\(e_{1},e_{2},\cdots,e_{r}\) 是\(V\) 1一\(\boldsymbol{e}_1=\begin{bmatrix}1\\0\\0\\0\end{bmatrix},\boldsymbol{e}_2=\begin{bmatrix}0\\1\\0\\0\end{bmatrix},\boldsymbol{e}_3=\begin{bmatrix}0\\0\\1\\0\end{bmatrix},\boldsymbol{e}_4=\begin{bmatrix}0\\0\\0\\1\end{bmatrix}\) 是\(R^{4}\) 的一个规范正交基。
向量与矩阵
初等矩阵
矩阵可以看作对向量的变换,单位矩阵是对角线全1的矩阵,相当于0变换。
$$\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}=I$$
矩阵的初等行变换等价于对单位矩阵做初等行变换再乘上要变换的矩阵。
可以发现初等矩阵是对角矩阵,如果一个对角矩阵的值不为1会对向量产生什么影响呢?如图所示。
![图片[1]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-3.png)
可以发现,此时的影响是在\(x\) 轴或\(y\) 轴上对向量进行伸缩。那么普通的矩阵又是什么效果呢?如图所示。
![图片[2]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-4.png)
可以发现,普通的矩阵还可以对向量产生旋转的变换效果。
可逆矩阵
可逆矩阵把求解向量\(x\) 的问题转换成了求可逆矩阵本身的问题,如下公式推导所示:
$$\begin{aligned}
&Ax=b \\
&A^{-1}Ax=A^{-1}b \\
&x=A^{-1}b
\end{aligned}$$
可逆矩阵的求解与矩阵\(A\) 和初等矩阵\(I\) 有关,具体推导如下:
供设\(\boldsymbol{A}=\begin{bmatrix}1&-2&1\\-3&7&-6\\2&-3&0\end{bmatrix}.\) 求可逆矩阵\(A^{-1}\) 的过程和下:
$$\left[\begin{array}{rrr:rrr}1&-2&1&1&0&0\\-3&7&-6&0&1&0\\2&-3&0&0&0&1\end{array}\right]\Rightarrow\left[\begin{array}{rrr:rrr}1&0&0&-18&-3&5\\0&1&0&-12&-2&3\\0&0&1&-5&-1&1\end{array}\right]$$
通过矩阵的初等行变换将左边矩阵推导成右面的格式即完成了可逆矩阵的计算,此时可
进知师: \(A^{-1}=\begin{bmatrix}-18&-3&5\\-12&-2&3\\-5&-1&1\end{bmatrix}.\)
矩阵的行列式
这里就先谈行列式的几何意义,最后再谈行列式的计算方法的由来。思考一下,经过线性变换,空间发生了变化,相应的面积也会发生变化,如图所示。
![图片[3]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-5.png)
在\(x\) 轴基向量扩大2倍, \(y\) 轴基向量扩大3倍的情况下,面积扩大了6倍,而这个6正好就是线性变换后矩阵的行列式,由此可见,行列式的几何意义就是:线性变换改变面积(体积、超平面)的比例。下面引出正式的定义:
$$\det\begin{bmatrix}a&c\\b&d\end{bmatrix}=ad-bc$$
从几何上来推理一下这个公式,随意假设\(x\) 轴基向量与y轴基向量在任意一个线性变化的作用下变换,结果如图所示。
![图片[4]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-6.png)
由于求的是图中平行四边形的面积,从图上构建出整个长方形,得到每一部分区域,做减法就可以得到结果了,整个减法如下
$$(a+c)(b+d)-2(1/2ab)-2*(1/2cd)-2cb=ad-bc$$
在上面的基础上来考虑何为行列式为0。
行列式为0证明空间变换的比例为0,那么说明空间进行了收缩,也就是降维或者说数据余。如下图所示,两个向量共线,本来两个向量应该撑起一个平面的,但是现在只有一条线,所以就从二维变为了一维:
![图片[5]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-7.png)
这其实代表线性相关,于是将整个逻辑串联起来就是:
(1)线性相关=有冗余=两个或多个向量在同一平面(点、空间、超平面)=空间变化率为0=行列式为0。
(2)线性无关=没有冗余=任何一个向量都不会被其他向量表示=空间变化率不为0=行列式不为0。
行列式还有许多其他重要的性质和应用,下面列出了一些行列式的主要用途和性质:
(1)解线性方程组:对于一个线性方程组\(Ax=b\) ,如果系数矩阵\(A\) 的行列式\(\left|A\right|\) 不为零,则该方程组有唯一解。
(2)矩阵的逆:对于一个方阵\(A\) ,如果它的行列式不为零,则\(A\) 是可逆的,且其逆知阵可以通过行列式来表示。
(3)空间体积:在三维空间中,一个三阶方阵的行列式表示与该矩阵列向量形成的并行六面体的体积有关。对于更高维的空间,行列式的绝对值与相应的超体积有关,
(4)线性变换的“伸缩”因子:行列式的绝对值表示线性变换对体积的放大或缩小比例。
(5)特征值和特征向量:行列式与矩阵的特征多项式的计算密切相关,这进一步与矩阵的特征值和特征向量有关,
(6)微分方程的解:在求解某些微分方程时,行列式可以用于判断解的存在性和唯一性。
(7)几何和物理中的应用:行列式经常在几何、物理和工程学中出现,用于描述各种物理和几何性质,如电磁学、流体力学和弹性力学中的某些问题。
这只是行列式的一些基本应用和性质,实际上,它在数学和其他学科中还有许多其他的应用和重要性。
矩阵的秩
秩表示什么呢?假设四个行向量组成的矩阵\(A\) 如下:
$$a_1=(1,1,3,1),a_2=(0,2,-1,4),$$
$$a_3=(0,0,0,5),a_4=(0,0,0,0).$$
$$A=\begin{bmatrix}1&1&3&1\\0&2&-1&4\\0&0&0&5\\0&0&0&0\end{bmatrix}$$
求其极大线性无关组假设有: \(k_{1}\alpha_{1}+k_{2}\alpha_{2}+k_{3}\alpha_{3}=0\) (因为\(a_{4}\) 是零向量,跟谁都有关,所以只假设前三个向量线性相关)。
$$\begin{cases}k_1=0,\\k_1+2k_2=0,\\3k_1-k_2=0,\\k_1+4k_2+5k_3=0\end{cases}$$
解得: \(k_{1}=k_{2}=k_{3}=0\) ,即\(\alpha_1,\alpha_2,\alpha_3\) 线性无关。
矩阵的秩表示当前矩阵中线性无关的向量组的个数,在当前例子中即为3。
在之前说过矩阵可以看作对向量做变换,例如可以对二维图形进行旋转,比如用旋转矩阵\(\begin{bmatrix}\cos(q)&-\sin(q)\\\sin(q)&\cos(q)\end{bmatrix}\) 。此时的旋转矩阵秩为 2,变换后的效果如图所示
![图片[6]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-8.png)
变换后的结果依然是二维的。如果用矩阵[二进行变换呢?此时矩阵的秩为1,变换效果如图所示。
![图片[7]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-9.png)
变换后的结果变成了一维。这里就体现出矩阵的秩对向量的变换作用。即:如果矩阵的秩低于向量空间的维度,那么会对向量进行降维。
最后强调一下,矩阵的秩实际上代表了矩阵中不重复的主要特征个数。举个生活中的例子:家里的有三只小猫咪,给它们拍摄了100张照片,组成了十行十列的矩阵,该矩阵的秩等于3,就算拍一千张照片,组成的矩阵秩还是3。
特征值和特征向量
通俗的理解特征值和特征向量描述了什么,怎么获得成功的人生?在正确的道路上坚持努力下去。可以把千百种人生选择看作特征向量(它是有方向的!):把在这个方向上的努力看作特征值(它是一个衡量大小的量)。
下面引出它的数学定义:对于给定矩阵\(A\) ,寻找一个常数1和非零向量\(x\) ,使得向量\(x\) 被矩阵\(A\) 作用后,所得的向量\(Ax\) 与原向量\(x\) 平行,并且满足\(Ax= lx\) 。其中, \(x\) 是特征向量,1是特征值,特征值越大表示该特征向量越重要。举个例子来理解:
向量\(e_1=\begin{bmatrix}1\\0\end{bmatrix}\) 和向量\(e_2=\begin{bmatrix}0\\1\end{bmatrix}\) 都是向量\(A=\begin{bmatrix}3&0\\0&2\end{bmatrix}\) 的特征向量
因为它们都可写成\(Ax= lx\) 的形式
$$A\boldsymbol{e}{1}=\begin{bmatrix}3&0\\0&2\end{bmatrix}\begin{bmatrix}1\\0\end{bmatrix}=\begin{bmatrix}3\\0\end{bmatrix}=3\boldsymbol{e}{1}\\A\boldsymbol{e}{2}=\begin{bmatrix}3&0\\0&2\end{bmatrix}\begin{bmatrix}0\\1\end{bmatrix}=\begin{bmatrix}0\\2\end{bmatrix}=2\boldsymbol{e}{2}$$
特征向量有无数个,且此时特征向量对原始向量只有伸缩作用,没有旋转作用。小结一下:矩阵和向量作乘法,向量会变成另一个方向或长度的新向量,主要会发生旋转、伸缩变化,如果矩阵乘以某些向量后,向量不发生旋转变换,只产生伸缩变换,那么就说这些向量是矩阵的特征向量,伸缩的比例就是特征值
最后,怎么求解特征向量限?公式如下:
$$\begin{aligned}
&Ax=l\:x \\
&Ax=l\:(Ix)=l\:Ix \\
&(A-l\:I)x=0
\end{aligned}$$
这个公式把解特征向量变成了求解齐次方程的问题。例如求\(A=\begin{bmatrix}2&0\\0&3\end{bmatrix}\) 的特征值
$$\begin{aligned}&\mid A-l\:I\mid=0\\&X=\begin{bmatrix}2&0\\0&3\end{bmatrix}-l\:I=\begin{bmatrix}2-l&0\\0&3-l\end{bmatrix}\\&\det(X)=(2-l\:)*(3-l\:)\end{aligned}$$
很容易看出\(l_{1}=2,l_{2}=3\) 。把l代入式\(Av= l \quad v\):
$$\begin{aligned}&\begin{bmatrix}2&0\\0&3\end{bmatrix}\begin{bmatrix}v_i\\v_j\end{bmatrix}=\begin{bmatrix}2v_i\\3v_j\end{bmatrix}=2\cdot\begin{bmatrix}v_i\\v_j\end{bmatrix} \quad此式在v_{j}=0时对任何v_{i}成立\\ &\begin{bmatrix}2&0\\0&3\end{bmatrix}\begin{bmatrix}v_i\\v_j\end{bmatrix}=\begin{bmatrix}2v_i\\3v_j\end{bmatrix}=3\cdot\begin{bmatrix}v_i\\v_j\end{bmatrix} \quad此式在v_i=0时对任何v_j成立\end{aligned}$$
说明, \(x\) 轴和\(y\) 轴上所有的向量都是特征向量,且经过矩阵\(A\) 的作用,会在\(x\) 轴上拉伸两倍,在\(y\) 轴上拉伸3倍。
特征值分解: \(A=\mathit{P\Lambda P^{-1}}\) ,其中\(P\) 是矩阵\(A\) 的特征向量组成的矩阵; \(A\) 是特征值组成的对角矩阵,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个知阵变化方向。
特征值分解的过程就是求解\(\left|A-l\:E\right|=0\) ,即求解下面的线性方程组:
$$\begin{vmatrix}a_{11}-l&a_{12}&\ldots&a_{1n}\\a_{21}&a_{22}-l&\ldots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{n1}&a_{n2}&\ldots&a_{nn}-l\end{vmatrix}=0$$
可以解出\(n\) 个特征值: \(l_{1},l_{2},\cdots,l_{n}\) ,再把\(n\) 个特征值代入式子\(( A- l\:I) x= 0\) 。可以求出\(n\) 个对应的特征向量\(P_{1},P_{2},\cdots,P_{n}\)
对于每一个特征值与特征向量满足: \(Ax_{i}=l_{i}x_{i}\)
\(\text{因为}P=[x_{1},x_{2},\cdots x_{n}],\mathit{\Lambda}=\begin{bmatrix}l_{1}&&\\&\ddots&\\&&l_{n}\end{bmatrix}\)。
\(Ax_{i}=l_ix_{i}\) 的等号左边等于: \([Ax_{1},Ax_{2},\cdots Ax_{n}]=A[x_{1},x_{2},\cdots x_{n}]=AP\) 。
\(Ax_{i}=l_ix_{i}\) 的等号右边等于:\([l_1x_1,l_2x_2,\cdots l_nx_n]=[x_1,x_2,\cdots x_n]\begin{bmatrix}l_1&&&\\&\ddots&&\\&&&l_n\end{bmatrix}=\boldsymbol{P\mathit{\Lambda}}\)。
可得: \(AP=PA\) ,如果矩阵\(P\) 可逆,则有\(A=P\mathit{\Lambda}P^{-1}\) 。
至于特征分解的意义,通过一个具体的例子来讲:对于矩阵\(A\) 而言,由于是方阵,所以不会对向量进行维度的升降,所以矩阵代表的运动实际上只有两种:旋转和拉伸。其特征值分解后的结果如下图所示。
![图片[8]-向量与矩阵-点头深度学习网站](https://www.diantouedu.net/wp-content/uploads/2024/11/image-10.png)
通过上图来看特征值分解,实际上把旋转和拉伸运动给分解开了。为什么要分解呢其实是为了筛选出整体中最具有代表性的特征。举个例子:图像也可以被视为矩阵,图像的每一个点都是由RGB值定义的,所以每个图像可以被表示为三个巨型矩阵(分别是\(R,G,B\) 矩阵)。
SVD分解可以被认为是特征值分解(EigenValueDecomposition,EVD)的延伸。特征值分解将一个矩阵分解为两组正交的特征向量和一个特征值对角线矩阵。
而特征值矩阵又是从大到小排列的,特征值大小的下降速度很快,可以通过丢弃一些特征值小的特征值来压缩数据。对于压缩图像来说,只要人眼不可察觉便可以认为是成功的压缩。
简单来说,就是通过把一块大的数据分解为很多项,通过给数据的每个项的重要程度扫序,挑选出一部分最重要的保留,丢弃一部分最不重要的,来实现数据压缩。
暂无评论内容