从零开始学习PCA
2018-07-17 本文已影响17人
HeiLeo
以下是我最粗浅的理解:
PCA(Principal components analysis)是一种分析复杂多变量的统计方法。它可以通过线性降维的方式将样品中的每个个体用尽可能少的变量将其分开,组成不同的类群。类群内的Principal components相似,不同类群间的Principal components相差较大。一个简单的例子是将一群人分类,每个人都是具有多维的特征的,但是通过性别这一点,就可以将人群分类,性别这一特征就是被选择出的Principal component。当然,划分出男女及其他性别之后还可以继续细分。根据权重从高至低可列出PC1,PC2以至于PCi。这些PC应该是互不干涉的。
在具体应用中PC的计算并不是直接摘取就可以,需要一些数学进行变换,具体需要应用到线性代数。以single cell-RNAseq作为说明,该实验每个细胞的所有特征都来自于其mRNA(不准确):表达高低与基因表达特异性。假设每个细胞的内容都构成一个向量,存在于Rm集合中,通过PCA,我们可以获得构成该集合所有基,也就是各个PC。这也是为什么PC间应该线性无关。显然,会出现占比最重要的基和次重要的基,只用这两个基就可以表示每个细胞大部分的内容了。这样一来,一个多维的向量变成了二维,由此可以通过可视化将细胞分类。这一点,或许是PCA有局限或是有很大发挥空间的地方,当两种PC并不足够细分,就可能需要应用到更多PC。