【线性代数启示录2】关于矩阵乘法的定义及线性变换

2022-08-08  本文已影响0人  东方胖

一个二维矩阵的乘法示例
\boldsymbol A = \left ( \begin{array}{1} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{33} \\ a_{31} & a_{32} & a_{33} \end{array} \right)
\boldsymbol B = \left ( \begin{array}{1} b_{11} & b_{12} & b_{13} \\ b_{21} & b_{22} & b_{33} \\ b_{31} & b_{32} & b_{33} \end{array} \right)
矩阵 \boldsymbol A\boldsymbol B的乘法是什么?

在线性代数的启示1里,可以看到线性方程组和矩阵的关系.
A\boldsymbol x = \boldsymbol b ,对于向量 \boldsymbol x\boldsymbol A 作用之后,变成了 \boldsymbol b, 矩阵 \boldsymbol A 似乎对应了一个函数映射。
在代数中有专门的术语变换

从映射变换的角度看 Bx ,它是一个 n 维度的向量,那么\boldsymbol A作用在 \boldsymbol B \boldsymbol x 上仍然是一个 n维的向量。

\boldsymbol {A(Bx)} 能不能写成 \boldsymbol {(AB)}(\boldsymbol x) , 这样写有啥好处?
可能有好处,因此我们希望可以将复合式的映射写成 (\boldsymbol{AB})(\boldsymbol x) 那么就要考虑 (\boldsymbol{AB})的定义,这就引出了矩阵乘法的定义
矩阵的乘法为什么不是点乘或是别的样子。

取决于矩阵的提炼,它是来自线性方程组 \boldsymbol {Ax = b} , 它和列向量的映射形式是 每一行和列向量的每一列逐项进行代数乘,然后再代数加
b_j = \sum_{i = 1}^n a_{ji}x_i

\boldsymbol {y = Bx}做个替换,设
y_j = \sum_{i = 1}^n b_{ji}x_i \\ \boldsymbol y = (y_1, y_2, ..., y_n)^\mathrm{T}

由于, \boldsymbol {Bx = y}, \boldsymbol {Ay = b}
对列向量 \boldsymbol b的每个元素,就有

\begin{align*}\label{} & y_j = \sum_{i = 1}^n b_{ji}x_i\\ & b_j = \sum_{i = 1}^n a_{ji}y_i = \sum_{i = 1}^n (a_{ji}\cdot (\sum_{k = 1}^n b_{ik}x_k)) \\ & = \sum_{i = 1}^n (\sum_{k = 1}^n a_{ji} \cdot b_{ik}x_k) \\ \end{align*}
因为 \boldsymbol {x } 的任意性,就可以看出,要满足复合性,应该定义 \boldsymbol{AB} 的 第 i 行 第 j 列的元素是

e_{ij} = \sum_{k = 1}^n a_{ik}\cdot b_{kj}

总结

矩阵乘法的定义因而是为了和线性变化的复合自洽,同时也基于矩阵和线性方程组的关系——矩阵是从线性方程组中提取出抽象表示的产物。

有了矩阵乘,我们就可以对于 \boldsymbol {AB} 把右侧的矩阵改成变量,为了使它有意义,根据矩阵乘法的定义 假设 A 是 m \times n 的矩阵,那么 B 必须为 n 行,B表达成
(\vec b_1, \vec b_2, ..., \vec b_k) \vec b_i 都是 n 元的列向量
\boldsymbol {AB} = (\boldsymbol {Ab_1}, \boldsymbol {Ab_2}, ..., \boldsymbol {Ab_k}) = (\boldsymbol y_1, \boldsymbol y_2, ..., \boldsymbol y_k)

\boldsymbol y_i 是一个m元向量

矩阵 \boldsymbol A 将 n 元向量映射成 m元向量。
因此,一般化后,我们考虑一种这样的映射: T: \mathbb{R^n} \rightarrow \mathbb{R^m}
它满足一些特性:

T(c\boldsymbol x) = cT(\boldsymbol x) \\ T(\boldsymbol x + \boldsymbol y) = T(\boldsymbol x) + T(\boldsymbol y)

这些特性实际上是从矩阵运算中抽象出来的,也可以说是从一元函数 f: \mathbb{R} \rightarrow \mathbb{R}, f(x) = ax \qquad a, b \in \mathbb{R} 中抽象的,它满足

\begin{align*}\label{} & f(cx) = cf(x) \\ & f(x + y) = f(x) + f(y) \end{align*}
或写成
f(ax + by) = af(x) + b(y)

f 的几何性状,在二维的平面上是一条直线,因而把这种特征称为线性, 它具有几何背景,因而延伸到多维情形时,我们称 T(\boldsymbol x) 就是一个线性变换

例子:
\boldsymbol A = \left( \begin{array}{} 1 & 2 \\ 3 & 4 \\ \end{array}\right)
它把 向量 (1, 1)^\mathrm{T} 变换成 (3, 7)^\mathrm{T} 如图,绿线到红线的转化就是平面图上的旋转和拉伸。

几何关系

为什么人们要注意线性变换,有一个原因可能是线性变换和矩阵含有一种内在的联系。
由矩阵上的代数运算,很容易验证矩阵作用在 \boldsymbol x 上就是一种线性变换。

自然地,有问题:
每一个线性变换是不是对应着一个矩阵,反过来是不是也是如此,其次,这种对应是不是唯一的?

这个问题的回答是肯定的。
任意的线性变换对应一个唯一的矩阵。
对于线性变换 T: \mathbb{R^n} \rightarrow \mathbb{R^m} 存在唯一的矩阵 \boldsymbol A
使得
\boldsymbol {T(x) = Ax}

从矩阵的代数运算抽象出线性变换的规则,再把它和矩阵联系起来。矩阵的本质,从线性变换的角度看不仅仅是线性方程组的抽象表示。

上一篇下一篇

猜你喜欢

热点阅读