PCA(主成分分析)的学习

2020-04-13 本文已影响0人 Maven

PCA，主成分分析，是数据降维的一种方法。通过PCA降维，我们能够拿到最有价值的信息。其基本思想：

将坐标轴中心移到数据的中心，然后旋转坐标轴，使得数据在C1轴上的方差最大，即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分。
C2第二主成分：找一个C2，使得C2与C1的协方差（相关系数）为0，以免与C1信息重叠，并且使数据在该方向的方差尽量最大。
以此类推，找到第三主成分，第四主成分。。。。第p个主成分。p个随机变量可以有p个主成分。

为什么要用PCA进行降维，现在我们假设有一个特征，两个特征，三个特征；
我们都能用图形表示，并且能通过特征将样本分开。

一个特征

两个特征

三个特征

从以上三个图中我们能够清晰的看到，那几个细胞是一类细胞，他们有着相似的特征。
我们知道一个细胞中表达的基因数目成千上万，那么这些基因的表达都是一个个独立的特征，我们又如何能够从这么成千的特征中找到具有相似的特征一类细胞呢，或者说如何将这些细胞的特征在二维坐标中表示，并且还不丢失主要信息，这时候就要用到PCA降维。

PCA降维是如何做到的呢？以二维特征为例，将坐标轴的中心移到数据的中心，如下图所示：