StatQuest学习笔记分享相关性

07高通量测序-MDS and PCoA

2021-01-15  本文已影响0人  不到7不改名

MDS and PCoA

多维缩放(Multi-Dimensional Scaling)分为:

我们有一群cell,做RNA-seq。当我们进行PCA时,我们将样本之间的相关性(或缺乏相关性)转换为二维图。高度相关的cell聚集成类。

image-20210103135742741.png

多维缩放(MDS)和主坐标分析(PCoA)与主成分分析(PCA)非常相似,不同的是,它们不是将相关性转换为二维图,而是将样本之间的距离转换为二维图。为了计算MDS或PCoA,我们必须计算cell1和cell2、cell3、cell4之间的距离,cell2和、cell3、4之间的距离.....

现在,让我们假设我们只需要计算cell1和cell2之间的距离,计算两个物体之间距离的一种常见方法是计算欧几里得距离(Euclidian distance)

如果我们只有两个基因,我们可以计算cell1和cell2之间的距离通过公式:

image-20210103140710551.png

有了更多的基因,我们只是把更多基因之间的差异的平方加起来

image-20210103140816897.png

一旦我们计算出每一对细胞之间的距离,MDS和PCoA就会把它们缩小成二维图。坏消息是,如果我们使用欧几里得距离(Euclidian distance),得到图会和PCA图相同。换句话说,基于最小化线性距离的聚类最大化线性相关性的聚类是一样的。

image-20210103141106933.png

好消息是还有很多其他的方法来测量距离,例如,另一种测量细胞间距离的方法是计算各基因间log倍数变化绝对值的平均值。首先计算cell1和cell2基因的log倍数变化,然后计算所有log倍数变化的绝对值,最后求平均值。

image-20210103141702072.png
image-20210103141749851.png

最终,我们将得到看起来不同的图形

image-20210103141841395.png

生物学家可能会选择用log Fold Change来计算距离,因为他们经常对基因间的log Fold Change感兴趣。但是有很多距离可供选择,Manhattan Distance 、Hamming Distance、Great Circle Distance etc.etc.etc.。选择“最佳”距离是数据“科学”的“艺术”的一部分。

PCA VS MDS and PCoA

image-20210103142316114.png
上一篇下一篇

猜你喜欢

热点阅读