PCA(主成分分析)的学习

2020-04-13  本文已影响0人  Maven

PCA,主成分分析,是数据降维的一种方法。通过PCA降维,我们能够拿到最有价值的信息。其基本思想:

  1. 将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分
  2. C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
  3. 以此类推,找到第三主成分,第四主成分。。。。第p个主成分。p个随机变量可以有p个主成分。

为什么要用PCA进行降维,现在我们假设有一个特征,两个特征,三个特征;
我们都能用图形表示,并且能通过特征将样本分开。

一个特征 两个特征 三个特征

从以上三个图中我们能够清晰的看到,那几个细胞是一类细胞,他们有着相似的特征。
我们知道一个细胞中表达的基因数目成千上万,那么这些基因的表达都是一个个独立的特征,我们又如何能够从这么成千的特征中找到具有相似的特征一类细胞呢,或者说如何将这些细胞的特征在二维坐标中表示,并且还不丢失主要信息,这时候就要用到PCA降维。

PCA降维是如何做到的呢?以二维特征为例,将坐标轴的中心移到数据的中心,如下图所示:

image.png
从PCA的基本思想中我们知道,第一步旋转坐标轴,使得在C1轴上方差最大。
image.png

如图中所示,在图中,a是固定不变的,以a为边,可以构建一个无数个直角三角形,同时有勾股定理我们知道,要想c最大,b就要最小。前边我们提到要使得在C1轴上的方差最大。如下图中所示,当SS取得最大时的那条直线便是转换后的C1轴。


image.png

第二步,是要与找一个C2,使得C2与C1的协方差(相关系数)为0,要使得相关系数为零,那么就是与C1轴垂直。如下图所示,图中蓝色的虚线便是C2轴。


image.png
通过同样的方法,便可以求得PC2的特征值。
image.png

将我们刚才找到的C1轴和C2轴旋转为X轴和Y轴,便是PC1和PC2的二维图。


image.png
同理,多维的数据,也按照这种方法获取。
接下来是如何计算PC1的解释度。如下图所示。
image.png
上一篇下一篇

猜你喜欢

热点阅读