11高通量测序-热图
热图
这是热图,行是gene,列是RNA-seq样本。这个数据已经通过两种方式进行了修饰,因此我们可以从中获得一些见解。
- 相对丰度(relative abundances)已经被缩放(scaled)。这是在每个基因的基础上进行的(其他热图一次缩放所有的基因)。这很容易看出样本X比样本z含有更多/更少的Y基因。举个例子,很容易看出样本1比其他样本表达量更高。然而,这种特定的缩放意味着我们不能跨基因进行比较。样本1中的暗红色条并不意味着样本1中Y基因比其他基因更容易转录,只是比其他样本表达量高。
将行/基因按相似性进行分组。这些基因在样本2中转录最多(在样本4中转录最少)。这些基因在样本1中转录最多(在样本4中最少)。这些基因在样本2中转录最多(在样本3中转录最少)。“聚类”不是偶然的,而是由于一个计算机程序试图把“相似的”东西放在一起。
image-20210104162019309.png没有聚类数据会像这样,数据看起来混乱很难去解释。
image-20210104162314862.png没有聚类和缩放,将会变成这样,注意到一个基因是高转录的,它是异常值,以至于无法看到其他基因的表达。
image-20210104163729015.png- 这个热图已经被缩放和聚类。缩放是“全局”的——不是每行/基因 而是对于 所有行 /基因。我们可以使用“全局”缩放,因为我们没有异常值。聚类是根据列/样本和行/基因进行的。按列聚类可以表明这些样本的表达是相似的,按行聚类可以表明这些基因的表达是相似的。没有聚类和缩放看上去是混乱的。
如果我们在第一个热图中使用全局缩放会怎样?
这一异常值极大地扭曲了缩放,以至于不能看到其他基因。同时,注意到聚类的变化和基因有一个新的顺序。缩放可以影响两件事:
-
基因的颜色有多鲜艳,你是否可以比较它们
-
聚类
怎样缩放
Z值缩放法
- 无论你是通过基因还是全局,最常见的方法是"Z-Score- Scaling"(Z值缩放法),因为从技术上讲,它会把数据转换成“Z-Score”(z值)
6个样本的RNA-seq的read,
- 计算平均数(16.5)
- 每个值减去平均数
-
计算标准差(6.28)
-
除以标准偏差(注意,轴上的刻度发生了变化)
- 数据过去从-8到+8。现在是-1.2到1.2之间
Z值缩放公式:
image-20210104170337797.png不管原始数据的变化如何,除以标准偏差就可以确保数据范围得到缩小。为什么我们要缩小数据的范围,因为我们只能辨别有限颜色的深浅。范围越大,色度的差异就越微妙。通过对数据进行缩放,我们使用的色度更少,更容易看到:“样本1比样本2有更多的转录……”
如果有一个异常值,那个标准差将会变非常大,也就是Z值的分母变大,接近于零的值会被压缩到很多,用几个色度很难将它们分开。
image-20210104190441616.png当我们使用异常值对数据集进行“全局缩放”时,我们看到其中一个基因明显高度表达,但我们看不出其他基因有什么不同。
image-20210104190600707.png怎样聚类
聚类主要有两种类型:
-
层次(hierarchical)
-
K-means
层次聚类(hierarchical clustering)
- 见10聚类笔记
总结
-
缩放数据(either per gene,per sample, or globally)
-
聚类数据(either by gene,or sample, or both gene and sample)聚类数据
-
层次聚类
-
K-means
-