基因组理论统计_算法复习相关

名词解释:测序深度&RPKM、FKPM、TPM

2020-09-10  本文已影响0人  小贝学生信

测序深度(Sequencing Depth)

此外还有测序覆盖度(Sequencing Coverage):是指测序数据匹配到参考基因组上后,能够覆盖基因组的区域比率。因为基因组有些区域重复序列较复杂或测序难以捕获到,那么这些区域可能就不会被测序读段所覆盖。
如测序产生了1000条读段(read),每条读段的长度为50bp,所测物种的基因组大小为10000bp,测序读段匹配到参考基因组后能够覆盖9000bp的参考基因组,那么测序覆盖度就为9000/10000=90%。

RPKM、FKPM、TPM、CPM

(1)不同样本的测序深度:例如sample1测序深度为5X,sample2测序深度为15,自然sample2的基因counts都比sample1的高很多。如若消除,计算比例即可。即针对每一样本,计算每一个基因counts相对于整体测序深度的比例。
(2)不同基因的长度:例如geneA长度为1KB,geneB长度为10KB;那么geneB的counts数总体都大于geneA。若相除,则计算基因平均每KB的表达量即可。

RPKM

注意顺序:是先除以总reads数;再除以基因长度。

RPKM1--原始counts
RPKM2--深度标准化(单位为10)
RPKM3--基因长度标准化(KB)

参考笔记“手动”计算FPKM,可以更好的理解这个公式。

FPKM
TPM

可以看到每个样本的TPM的总和是相同的(都是10),这就意味着TPM数值能体现出比对上某个基因的reads的比例,使得该数值可以直接进行样本间的比较。
事实也证明TPM的标准化方法更有优势,目前都已经推荐进行TPM标准化,不再使用了RPKM、FPKM了。

CPM
上一篇下一篇

猜你喜欢

热点阅读