十一.PCA案例分析及小结
2018-10-24 本文已影响85人
愿风去了
用PCA做噪音过滤
PCA用做噪音过滤的方法——任何成分的方差都远大于噪音的方差,相对于噪音,主成分相对不受到影响。
因此,仅利用主成分的最大子集重构该数据,那么应该就可以实现选择性保留信号并且过滤噪音。
首先,定义一个创建输入的函数用于显示无噪音数据集:
创造一组包含噪声的手写数字图像集:
用噪音数据集训练一个PCA,要求投影后保留50%的方差:
这里的50%的方差对应12个主成分。接下来利用逆变换重构过滤后的手写数字:
去噪后手写数字这个信号保留/噪音过滤性质是PCA一种非常有用的特征选择方式。
对于高维数据,可以利用PCA该性质在将数据投影到低维空间,然后进行分类器训练,在此过程中,该分类器将自动过滤输入数据中的随即噪音。
PCA小结
主成分分析是一个应用广泛的无监督方法,适用于数据可视化、噪音过滤、特征抽取和特征工程领域,主要用于数据降维。
对于高维数据,可以从PCA分析开始,可视化点间方差关系。
缺点:
(1)容易受到异常数据点影响,介于此,一些优化方法也被开发出来,如RandomizedPCA和SparePCA:
RandomizedPCA使用了一个非确定方法,快速近似计算一个高维度数据的前几个主成分;
SparePCA引入正则项来保证成分的稀疏性。
(2)除此之外,PCA一般只能处理线性分布的数据。
对于非线性数据,通常选择另一种方法——流形学习。