「数据预处理」05数据规约与PCA算法

2020-01-25  本文已影响0人  林拂晓

1.数据规约

即数据精简,包括属性规约(行)和数值规约(列)。

2.降维

(1)定义:降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,对数据进行预处理的一种方法。

(2)优点:①使得数据集更易使用;

②降低算法的计算开销;

③去除噪声;

④使得结果容易理解。

(3)降维的算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)等。

3.主成份分析PCA算法

(1)主要思想:PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

(2)步骤:

>一行为一个特征,对每个特征求平均值,用原来的数据减去每个特征的平均值,得到新的中心化之后的数据;

>求特征协方差矩阵;

>根据协方差矩阵,求特征值和特征向量;

>对特征值按照降序顺序排列,相应的也给出特征向量,选择几个主成分,求投影矩阵。

>根据投影矩阵求出我们降维后的数据。

(3)优点:①仅仅需要以方差衡量信息量,不受数据集以外的因素影响。

②各主成分之间正交,可消除原始数据成分间的相互影响的因素。

③计算方法简单,主要运算是特征值分解,易于实现。

(4)缺点:①主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

②方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

(5)实例:

PCA算法实例
上一篇 下一篇

猜你喜欢

热点阅读