主成分分析的理解
2018-04-03 本文已影响45人
enhengz
主成分分析
主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),所以在变量较少时就不太适合先用主成分筛选变量,这个视数据情况而定
主成分分析实现步骤:
1、原始数据标准化,消除变量量纲不同的影响;
2、计算相关系数矩阵,计算特征值和对应的特征向量;
3、计算贡献率和累计贡献率。
疑问解答:
1.计算特征值的含义?
PCA的本质是对角化协方差矩阵,后对一个n x n的对称协方差矩阵分解求特征值和特征向量,就会产生n个n维正交基,每个正交基对应一个特征值,吧矩阵投影在这n个基上,此时的特征值的横就表示在该基上的投影长度,特征值越大,说明矩阵对应的特征向量上的方差越大,样本点越离散,越容易区分,包含的信息量越多
2.主成分系数
根据主成分系数判断主成分主要依赖的几个变量,根据主要依赖变量总结该主成分(综合指标)代表的性质
3.主成分得分
主成分得分其实就是降维之后数据,可对降维之后的主成分得分进行聚类分析,得到相似的类别群体