RNA-Seq分析|RPKM, FPKM, TPM, 傻傻分不清
2020-04-07 本文已影响0人
村长吃火锅
在RNA-Seq的分析中,对基因或转录本的read counts数目进行标准化(normalization)是一个极其重要的步骤,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。很容易理解,一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。当我们进行基因差异表达的分析时,往往是在多个样本中比较不同基因的表达量,如果不进行数据标准化,比较结果是没有意义的。因此,我们需要标准化的两个关键因素就是基因长度和测序深度,常常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作为标准化数值。那么,这三者计算原理是什么,有何区别呢?
为了更清楚的展示计算过程,我们用三个样本的4个基因的read counts矩阵做例子(来源于YouTube)。如表1:
1.png
2.png
3.png
4.png