StatQuest学习笔记分享

11高通量测序-热图

2021-01-17  本文已影响0人  不到7不改名

热图

这是热图,行是gene,列是RNA-seq样本。这个数据已经通过两种方式进行了修饰,因此我们可以从中获得一些见解。

image-20210104161624924.png

将行/基因按相似性进行分组。这些基因在样本2中转录最多(在样本4中转录最少)。这些基因在样本1中转录最多(在样本4中最少)。这些基因在样本2中转录最多(在样本3中转录最少)。“聚类”不是偶然的,而是由于一个计算机程序试图把“相似的”东西放在一起。

image-20210104162019309.png

没有聚类数据会像这样,数据看起来混乱很难去解释。

image-20210104162314862.png

没有聚类和缩放,将会变成这样,注意到一个基因是高转录的,它是异常值,以至于无法看到其他基因的表达。

image-20210104163729015.png image-20210104163252382.png

如果我们在第一个热图中使用全局缩放会怎样?

这一异常值极大地扭曲了缩放,以至于不能看到其他基因。同时,注意到聚类的变化和基因有一个新的顺序。缩放可以影响两件事:

image-20210104163946581.png

怎样缩放

Z值缩放法

6个样本的RNA-seq的read,

  1. 计算平均数(16.5)
image-20210104164824159.png
  1. 每个值减去平均数
image-20210104164921659.png
  1. 计算标准差(6.28)

  2. 除以标准偏差(注意,轴上的刻度发生了变化)

    • 数据过去从-8到+8。现在是-1.2到1.2之间
image-20210104170136679.png

Z值缩放公式

image-20210104170337797.png

不管原始数据的变化如何,除以标准偏差就可以确保数据范围得到缩小。为什么我们要缩小数据的范围,因为我们只能辨别有限颜色的深浅。范围越大,色度的差异就越微妙。通过对数据进行缩放,我们使用的色度更少,更容易看到:“样本1比样本2有更多的转录……”

如果有一个异常值,那个标准差将会变非常大,也就是Z值的分母变大,接近于零的值会被压缩到很多,用几个色度很难将它们分开。

image-20210104190441616.png

当我们使用异常值对数据集进行“全局缩放”时,我们看到其中一个基因明显高度表达,但我们看不出其他基因有什么不同。

image-20210104190600707.png

怎样聚类

聚类主要有两种类型:

层次聚类(hierarchical clustering)

总结

上一篇下一篇

猜你喜欢

热点阅读