十一.PCA案例分析及小结

2018-10-24  本文已影响85人  愿风去了

用PCA做噪音过滤

PCA用做噪音过滤的方法——任何成分的方差都远大于噪音的方差,相对于噪音,主成分相对不受到影响。

因此,仅利用主成分的最大子集重构该数据,那么应该就可以实现选择性保留信号并且过滤噪音。

首先,定义一个创建输入的函数用于显示无噪音数据集:

创造一组包含噪声的手写数字图像集:

用噪音数据集训练一个PCA,要求投影后保留50%的方差:

这里的50%的方差对应12个主成分。接下来利用逆变换重构过滤后的手写数字:

去噪后手写数字

这个信号保留/噪音过滤性质是PCA一种非常有用的特征选择方式。

对于高维数据,可以利用PCA该性质在将数据投影到低维空间,然后进行分类器训练,在此过程中,该分类器将自动过滤输入数据中的随即噪音。

PCA小结

主成分分析是一个应用广泛的无监督方法,适用于数据可视化、噪音过滤、特征抽取和特征工程领域,主要用于数据降维。

对于高维数据,可以从PCA分析开始,可视化点间方差关系。

缺点:

(1)容易受到异常数据点影响,介于此,一些优化方法也被开发出来,如RandomizedPCA和SparePCA:

RandomizedPCA使用了一个非确定方法,快速近似计算一个高维度数据的前几个主成分;

SparePCA引入正则项来保证成分的稀疏性。

(2)除此之外,PCA一般只能处理线性分布的数据。

对于非线性数据,通常选择另一种方法——流形学习。

上一篇下一篇

猜你喜欢

热点阅读