5.数据降维

2020-06-23  本文已影响0人  BlueFishMan

Principal Component Analysis

输入

1. 样本集
D=\{\overrightarrow{x}_1,\overrightarrow{x}_2,...,\overrightarrow{x}_N\}
\overrightarrow{x}_i=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)})^T
i=1,2,...,N
2. 低维空间维数d
d

输出

投影矩阵
W=(\overrightarrow{w}_1,\overrightarrow{w}_2,...,\overrightarrow{w}_d)

算法步骤

1. 中心化
\overrightarrow{x}_i\leftarrow\overrightarrow{x}_i-\frac{1}{N}\sum_{j=1}^N\overrightarrow{x}_j N_k(\overrightarrow{x})
2. 协方差矩阵以及特征分解
XX^T
3. 投影矩阵
最大的d个特征值对应的特征向量\overrightarrow{w}_1,\overrightarrow{w}_2,...,\overrightarrow{w}_d.
W=(\overrightarrow{w}_1,\overrightarrow{w}_2,...,\overrightarrow{w}_d)

d

***1. 通过交叉验证法选取较好的d(在降维后的学习器的性能比较好)

  1. 设置一个阈值***
    \mathop{\arg\min}\limits_{d}(d)
    \frac{\sum_{i=1}^d\lambda_i}{\sum_{i=1}^n\lambda_i}\ge t=95\%
    \lambda_1\ge\lambda_2\ge...\ge\lambda_n
上一篇下一篇

猜你喜欢

热点阅读