数据降维方法介绍(四)
第二种方法:主成分分析法(一)
姓名:何源 学号:21011210073 学院:通信工程学院
转载自:机器学习笔记(九)——数据降维:主成分分析法(PCA)
【嵌牛导读】主成分分析法简介
【嵌牛鼻子】主成分分析法
【嵌牛提问】主成分分析方法的具体原理是什么,涉及哪些知识
【嵌牛正文】
一、基础知识
均值:
方差:
协方差
向量内积
二、主成分分析方法介绍
PCA(Principal Component Analysis) 是一种常见的数据分析方式,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,发现更便于人类理解的特征。在很多场景中需要对多变量数据进行观测,在一定程度上增加了数据采集的工作量。更重要的是:多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果对每个指标进行单独分析,其分析结果往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。
三、主成分分析方法思想
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。先假设用数据的两个特征画出散点图:
图1-特征散点图如果我们只保留特征1或者只保留特征2。那么此时就有一个问题,留个哪个特征比较好呢?
图2-保留一种特征通过上面对两个特征的映射结果可以发现保留特征1(右面)比较好,因为保留特征1,当把所有的点映射到x轴上以后,点和点之间的距离相对较大,也就是说,拥有更高的可区分度,同时还保留着部分映射之前的空间信息。那么如果把点都映射到y轴上,发现点与点距离更近了,这不符合数据原来的空间分布。所以保留特征1相比保留特征2更加合适,但是这是最好的方案吗?将所有的点都映射到一根拟合的斜线上,从二维降到一维,整体和原样本的分布并没有多大的差距,点和点之间的距离更大了,区分度也更加明显。
图3-数据拟合通过上面的分析,我们可以看到:PCA的主要思想就是将数据向使得投影方差较大的方向投影,尽可能保留数据信息。