21高通量测序-PCA的基本思想
PCA的基本思想
假设我们有一些正常的细胞,尽管它们看起来一样,但我们怀疑它们之间存在差异。下图中可能存在三种细胞,我们无法从外部观察到其中的差异。所以我们对每个细胞的mRNA进行测序,以确定哪些基因是活跃,。这告诉我们细胞在做什么。
image-20210107134707469.png 现在,假设我们只有两个细胞,我们可以为每个基因绘制图。Gene1在细胞1中高度转录,在细胞2中低转录。Gene9在细胞1中转录低而在细胞2中转录高。一般来说,细胞1和细胞2呈负相关。这意味着它们可能是两种不同类型的细胞,因为它们使用不同的基因。
image-20210107135442394.png 假设现在我们有三个细胞,我们已经看到了如何画出前两个细胞来看看它们之间的关系有多密切。现在我们也可以比较Cell1和Cell3,Cell1和Cell3正相关,表明它们在做类似的事情。最后我们比较Cell2和Cell3,Cell2和Cell3正相关,表明它们在做不同的事情。
image-20210107135749353.png或者,我们可以尝试在三维图上同时绘制所有三个cell。
image-20210107145126564.png但当我们有4个或更多细胞时怎么办?画出所有2个cell的关系图,试着把它们都弄懂?或者画一些疯狂的图,每个cell都有一个轴,让我们的大脑爆炸?
image-20210107145315853.png不,这两种选择都是愚蠢的。相反,我们绘制了一个Principa Component Analysis (PCA) plot。PCA图将所有cell之间的相关性(或缺乏相关性)转换为二维图,高度相关的细胞聚集在一起。为了让分类更容易看到,我们可以用颜色对它们进行标注。一旦我们在PCA图中确定了分类,我们可以回到原始cell,它们代表三种不同类型的细胞:用它们的基因做三种不同的事情!!!!
image-20210107145701861.png下面是关于如何解释PCA图的最后一个主要想法:
- 这些轴是按重要性排序的
- 第一个主成分轴(PC1)的差异比第二主成分轴(PC2)的差异更重要
-
如果左上角的绿点与左下角的红点的距离是d1,右下角的黄点与左下角红点的距离是d2,此时d1=d2的话,那么我们就可以认为,黄色点与红色点的差异要大于绿色点与红色点的差异(因为PC1的坐标是第一主成分),如下所示:
image.png
在我们结束之前,应该知道PCA只是理解这种类型数据的一种方法。还有很多其他的方法都是这个“降维”主题的变体。
image-20210107150127798.pngwx_co=1)