06高通量测序-RPKM,FPKM,and TPM
RPKM,FPKM,and TPM
RNA-seq标准
-
我们过去使用RPKM(Reads Per Kilobase Million)或FPKM(Fragments Per Kilobase Million)
-
这些均一化的read计数如下:
-
测序仪深度(Million)
- 测序越深,就有越多的read比对到基因上。
-
基因长度(kilobase)
- 基因越长,就有越多的read比对到基因上。
-
-
-
现在他们想让我们使用TPM——(Transcripts per million)
为了理解TPM、RPKM和FPKM之间的差异,我们将使用一个假想的RNA-seq数据,对一个有4个基因(A、B、C和D),3个重复(Rep1、2和3),通过数学方法进行计算。Rep3的reads更多,基因B(4kb)的长度是基因A(2kb)的两倍,这就解释了基因B总是得到两倍的read对于基因A。
image-20210103110805738.pngRPKM
首先,我们将使用RPKM标准对数据进行均一化。
第一步均一化read深度
我们计算每个Rep的总reads,然后除以10,真正应该除以1,000,000。因为RPKM的M指的就是million,是百万。Rep1总reads除以10的结果为3.5,然后用每个基因的reads除以3.5,得到RPM。
image-20210103112451612.png第二步均一化基因长度
用RPM除以基因的长度(kb),比如Rep1的基因A,2.86/2=1.43,得到RPKM
image-20210103113215763.pngimage-20210103114303477.png
FPKM
RPKM和FPKM 是非常相近的两个术语:
-
RPKM: Reads Per Kilobase Million
- RPKM是用于单端测序
-
FPKM: Fragments Per Kilobase Million
- FPKM用于双端测序
在RNA-seq中:
-
单端测序,一个片段对应一个read
-
双端测序,一个片段对应两个read,有时只有一端有质量的read。FPKM会跟踪片段,这样有两个reads就不会被计算两次。
TPM
TPM类似于RPKM和FPKM,只是操作顺序被切换了。
第一步均一化基因长度
counts值除以对应基因的长度(kb),得到RPK
image-20210103120016571.png第二步均一化测序深度
计算出Rep总的RPK,然后除以10,真正应该除以1,000,000。因为TPM的M指的就是million,是百万。Rep1总reads除以10的结果为1.5,然后用Rep1每个基因的reads除以1.5,得到TPM。
image-20210103120016571.pngRPKM VS TPM
TPM,RPKM(和FPKM)“纠正了基因长度和测序深度的偏差。但是每一列的和非常不同。在RPKM 中每一个样本RPKM的和是不同的。在TPM 中每一个样本TPM的和是相同的。
image-20210103120632617.png考虑3个相同大小的饼状图(10)。3.33大小一块,在每个饼中都是一样的,并且总是大于3.32。TPM表明,在Rep1中,定位到基因A的总read多于Rep3。通过TPM我们更容易发现,在每个重复中,比对到哪些基因上的reads更高或更低。
image-20210103121648597.png使用RPKM,比较总reads的比例会变得更加困难,因为每个Rep的总read数不同(每个饼图大小不同)。一个1.43大小的切片代表不同的馅饼中不同的读read比例。哈!严肃地说,人们之所以使用TPM,是因为这些数字可以清楚地告诉您每个样本中对应的read的比例。而且由于RNA-seq是关于比较read的相对比例,这个指标似乎更合适。
image-20210103121707177.png