PCA(2018-05-05)
2018-05-06 本文已影响0人
叨逼叨小马甲
- PCA是最受欢迎的降维算法。
- 思路:将数据集转换到低维空间,同时尽可能的保护数据的信息。
- 应用:常用字损失数据压缩,特征提取,数据视觉化
- 是一种无监督学习
- 通常数据很难被学习出特点时,再使用PCA。
- 为什么需要降维?
- 为了数据视觉化,因为高维数据太难视觉出来了。
- 数据压缩;移除冗余和噪声特征;减少内存;加快训练速度
- variance、covariance、covariance matrix
-
方差:测量数据的分散程度
image.png -
协方差:测量两个变量如何一起变化
image.png -
协方差矩阵:
image.png
- PCA步骤
- 减去均值
- 计算协方差矩阵
- 计算特征值和特征向量
- 从特征值中选择元素(特征值最大的那个特征向量),形成新的特征向量
-
造成新的数据集
image.png
- 在PCA中,到底选择几组特征向量?
-
Kaiser法,
-
Screen test,
image.png -
Percentage of variation explained.
image.png