深度学习机器学习

PCA 随笔

2020-10-09  本文已影响0人  zidea

给大家解释一个问题,我们可以基于64×64像素的灰度图像表示通过在图像周围填充 0 来将图片变为 100×100 大小图片,同时对图像进行随机变化(移动和旋转)来得到 100×100=10000维数据空间。然而,在这些图像的数据集中,只有三个自由度的可变性,对应于垂直和水平的平移和旋转。因此,数据点将位于数据空间的一个子空间上,其内在维数为3。

主成分分析(PCA)

D =\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)}) \}

N 个维度有冗余,如何从 N 个维度中选取 M 个维度 (M < N),使识别率最高。
N 个维度\{ x_1, x_2, \cdots, x_N \} 构造 \{f_1(x_1,x_2,\cdots,x_N),f_2(x_1,x_2,\cdots,x_N) \cdots,f_m(x_1,x_2,\cdots,x_N) \}

主成分分析

Y = AX + b

\begin{aligned} Y = A(X - \overline{X})\\ \overline{X} = E(X) \\ \overline{X} = \frac{1}{p} \sum_{i=1}^p X_i \end{aligned}

A = \begin{bmatrix} a_{1}\\ a_{2}\\ \vdots\\ a_{M} \end{bmatrix}

Y^{(i)} = \begin{bmatrix} a_1(X^{(i)} - \overline{X})\\ a_2(X^{(i)} - \overline{X})\\ \vdots\\ a_m(X^{(i)} - \overline{X})\\ \end{bmatrix} = \begin{bmatrix} y_1^{(i)}\\ y_2^{(i)}\\ \vdots\\ y_m^{(i)} \end{bmatrix}

最大化 \sum_{i=1}^p (y_1^{(i)} - \overline{y}_1^{(i)})^2

\begin{aligned} \overline{y}_1^{(i)} = \frac{1}{p} \sum_{i=1}^p y_1^{(i)}\\ = \frac{1}{p} \sum_{i=1}^p a_1(X^{(i)} - \overline{X})\\ = \frac{a_1}{p} \sum_{i=1}^p p X^{(i)} - p \overline{X} \end{aligned}

上一篇下一篇

猜你喜欢

热点阅读