生物统计

21高通量测序-PCA的基本思想

2021-01-21  本文已影响0人  不到7不改名

PCA的基本思想

​ 假设我们有一些正常的细胞,尽管它们看起来一样,但我们怀疑它们之间存在差异。下图中可能存在三种细胞,我们无法从外部观察到其中的差异。所以我们对每个细胞的mRNA进行测序,以确定哪些基因是活跃,。这告诉我们细胞在做什么。

image-20210107134707469.png

​ 现在,假设我们只有两个细胞,我们可以为每个基因绘制图。Gene1在细胞1中高度转录,在细胞2中低转录。Gene9在细胞1中转录低而在细胞2中转录高。一般来说,细胞1和细胞2呈负相关。这意味着它们可能是两种不同类型的细胞,因为它们使用不同的基因。

image-20210107135442394.png

​ 假设现在我们有三个细胞,我们已经看到了如何画出前两个细胞来看看它们之间的关系有多密切。现在我们也可以比较Cell1和Cell3,Cell1和Cell3正相关,表明它们在做类似的事情。最后我们比较Cell2和Cell3,Cell2和Cell3正相关,表明它们在做不同的事情。

image-20210107135749353.png

或者,我们可以尝试在三维图上同时绘制所有三个cell。

image-20210107145126564.png

但当我们有4个或更多细胞时怎么办?画出所有2个cell的关系图,试着把它们都弄懂?或者画一些疯狂的图,每个cell都有一个轴,让我们的大脑爆炸?

image-20210107145315853.png

不,这两种选择都是愚蠢的。相反,我们绘制了一个Principa Component Analysis (PCA) plot。PCA图将所有cell之间的相关性(或缺乏相关性)转换为二维图,高度相关的细胞聚集在一起。为了让分类更容易看到,我们可以用颜色对它们进行标注。一旦我们在PCA图中确定了分类,我们可以回到原始cell,它们代表三种不同类型的细胞:用它们的基因做三种不同的事情!!!!

image-20210107145701861.png

下面是关于如何解释PCA图的最后一个主要想法:

​ 在我们结束之前,应该知道PCA只是理解这种类型数据的一种方法。还有很多其他的方法都是这个“降维”主题的变体。

image-20210107150127798.png

wx_co=1)

上一篇下一篇

猜你喜欢

热点阅读