线代--矩阵对角化

2023-01-17  本文已影响0人  倪桦

基于矩阵相似A = P{^-1} B P,寻找一个最优坐标系对标准坐标系下的B变换进行描述,使得到一个非常简单的A变换从而帮助加速运算--该问题应用矩阵对角化进行求解。

矩阵对角化: A = PDP^{-1},其中D表示对角矩阵D = \begin{bmatrix} d_1&0&...&0 \\ 0&d_2&...&0 \\ ...&...&...&... \\ 0&0&...&d_n\end{bmatrix}

对于一个变换矩阵A,尝试寻找一个P坐标系,在该坐标系下A变换可以被描述为一个对角形式的矩阵D;因为对角矩阵在变换运算时的运算量是最小的,所以是在其它坐标系下寻找一个矩阵的最简相似矩阵的目标是寻找一个对角矩阵D,这个矩阵D与矩阵A表示同等变换。

要在一个P坐标系下寻找到一个A变换矩阵的对角矩阵,前提要求矩阵An个线性无关的特征向量。所以只要A矩阵存在有n个线性无关的特征向量,那么就一定存在它在P坐标系下描述的对角矩阵。

矩阵的对角化属于矩阵分解的一种方法;在A = PDP^{-1}的分解过程中,分解出的矩阵P由矩阵A的特征向量构成,矩阵D由矩阵A的特征值构成:

D = \begin{bmatrix} \lambda_1&0&...&0 \\ 0&\lambda_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda_n\end{bmatrix} \ \ \ \ \ \ \ \ \ \ \ P = \begin{bmatrix} |&|& &| \\ \vec u_1& \vec u_2&...& \vec u_n \\ |&|& &| \end{bmatrix}

对于等式 A = PDP^{-1}
\ \ \ \ \ \ \ \ \ \ \ \ \ AP = PDP^{-1}P = PDI = PD
\ \ \ \ \ \ \ \ \ \ \ \ \ AP = PD
联系特征值与特征向量A\vec u = \lambda \vec u 可知,当P由特征向量组成,D由特征值\lambda组成该等式成立

AP = A * \begin{bmatrix} |&|& &| \\ \vec u_1& \vec u_2&...& \vec u_n \\ |&|& &| \end{bmatrix} = \begin{bmatrix} |&|& &| \\ A\vec u_1& A\vec u_2&...& A\vec u_n \\ |&|& &| \end{bmatrix} = \begin{bmatrix} |&|& &| \\ \lambda\vec u_1& \lambda\vec u_2&...& \lambda\vec u_n \\ |&|& &| \end{bmatrix}

PD = \begin{bmatrix} |&|& &| \\ \vec u_1& \vec u_2&...& \vec u_n \\ |&|& &| \end{bmatrix} * \begin{bmatrix} \lambda_1&0&...&0 \\ 0&\lambda_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda_n\end{bmatrix} = \begin{bmatrix} |&|& &| \\ \lambda\vec u_1& \lambda\vec u_2&...& \lambda\vec u_n \\ |&|& &| \end{bmatrix}

从而, 当我们从A矩阵的特征向量组成的P矩阵的视角来看待A所代表的变换,A矩阵的表现形式最简。

性质推广
对角化的重要应用--求解矩阵的幂

A = PDP^{-1}
A^{2} = PDP^{-1}*PDP^{-1} = PDIDP^{-1} = PD^2P^{-1}
...
A^{m} = PD^mP^{-1}

对于对角矩阵的幂 D = \begin{bmatrix} \lambda_1&0&...&0 \\ 0&\lambda_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda_n\end{bmatrix}

D^2 = \begin{bmatrix} \lambda_1&0&...&0 \\ 0&\lambda_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda_n\end{bmatrix} * \begin{bmatrix} \lambda_1&0&...&0 \\ 0&\lambda_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda_n\end{bmatrix} = \begin{bmatrix} \lambda ^{2}_1&0&...&0 \\ 0&\lambda ^{2}_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda ^{2}_n\end{bmatrix}

D^m = \begin{bmatrix} \lambda ^{m}_1&0&...&0 \\ 0&\lambda ^{m}_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda ^{m}_n\end{bmatrix}

A^{m} = P \begin{bmatrix} \lambda ^{m}_1&0&...&0 \\ 0&\lambda ^{m}_2&...&0 \\ ...&...&...&... \\ 0&0&...&\lambda ^{m}_n\end{bmatrix}P^{-1} 简化了大量的矩阵运算

在现实中,遇到的大量属于动态系统范畴的问题(随着时间推移,对象的状态也在不断变化,这种变化可以被矩阵的形式所表征),从而k时刻的状态 \vec u_k = A^k\vec u_0 = P D^{k} P^{-1} \vec u_0;比如对处于随机过程中的对象进行观测,它处于不同状态的概率被向量\vec u所描述,相应的随着时间的推进,对象会不断变化,这种概率变化过程就可以被矩阵A所表征。

对于动态系统的描述方程 \vec u_k = A^k\vec u_0 = P D^{k} P^{-1} \vec u_0A表征的变化就是D,只是D这个形式矩阵要在P坐标系下进行描述,由A矩阵的特征值组成的D矩阵同时描述了在各时刻下\vec u_0的状态,所以特征值反映了研究对象的各个分量的速率,这个速率(被描述在P坐标系下)。

上一篇下一篇

猜你喜欢

热点阅读