RNA_Seq分析中的标准化(reads_count,FPKM,
1、关于FPKM, RPKM, TPM
在RNA-Seq的分析中,对基因或者转录本的reads count数目进行标准化是一个很重要的步骤,因为落在一个基因区域内的read数目取决于基因长度和测序深度。基因越长read数目越多,测序深度越高,则一个基因对应的read数目也相对越多。所以必须要标准化,而标准化的两个关键因素就是基因长度与测序深度。我们常用RPKM、FPKM和TPM作为转录组数据定量的表示方法。FPKM/RPKM/TPM都是描述相对定量的单位。
RPKM:
Reads Per Kilobase of exon modelper Million mapped reads:主要用来对单端测序(single-end RNA-seq)进行定量的方法。RPKM(推荐软件: Range, Deseq) 。
- RPKM先对测序深度进行标准化,然后再对基因长度进行标准化。
在一个样本中一个基因的RPKM等于落在这个基因上的总的read数(total exon reads)与这个样本的总read数(mapped reads (Millions))和基因长度(exon length( KB )) 的乘积的比值。
FPKM
Fragments Per Kilobase of exon model per Million mapped fragments: 主要是针对pair-end测序表达量进行计算。FPKM (推荐软件:cufflinks, Stringtie) 和RPKM 的计算方法基本一致。
FPKM和RPKM的区别就是一个是fragment,一个是read。对于单末端测序数据,由于Cufflinks计算的时候是将一个read当做一个fragment来算的,故而FPKM等同于RPKM。 对于双末端测序而言,如果一对paired-read都比对上了,那么这一对paired-read称之为一个fragment,而如果一对paired-Read中只有一个比对上了,另外一个没有比对上,那么就将这个比对上的read称之为一个fragment。而计算RPKM时,如果一对paired-read都比对上了会当成两个read计算,而如果一对paired-read中只有一个比对上了,另外一个没有比对上,那么就计read数为1。 故而即使是理论上将各个参数都设置成一样的,也并不能说FPKM=2RPKM。对于单末端测序,虽然理论上FPKM等同于RPKM, 但是实际上即使是使用同一个mapping软件得到的mapping结果,然后再分别去计算同一个基因的RPKM (自己人工计算,或者用现成的一些软件都能算)和FPKM(用Cufflinks计算),结果却仍然是不同,因为Cufflinks有自己的模型和自己的一些内在算法。
TPM
Transcripts Per Kilobase of exonmodel per Million mapped reads :TPM (推荐软件:RSEM, Stringtie) ,优化的RPKM计算方法,可以用于同一物种不同组织的比较。
- TPM先对再对基因长度进行标准化,然后测序深度进行标准化。
TPM概括了基因的长度、表达量和基因数目。TPM可以用于同一物种不同组织间的比较,因为sum值总是唯一的。
- 优点:首先消除exon长度造成的差异,随后消除样本间测序总reads count不同造成的差异。
- 缺点:因为不是采用比对到基因组上的总reads count,所以特殊情况下不够准确。例如:某突变体对exon造成整体影响时,难以找出差异。
不管是计算FPKM、RPKM,还是计算TPM,我们都要先得到一个ReadCount的矩阵(行为基因,列为样本)。在计算FPKM和RPKM时,都是先按列(也就是这个样本的总read数)进行标化,之后再对对个基因的长度进行标准化。而TPM是先对基因长度进行标准化,之后再对列(这个时候就不再是这个样本的总read数了)进行标化。这样使得最终的TPM矩阵的每列都相同(列和都等于1),也就是说每个样本中的TPM的和都是一样的。这样就会使得我们更容易去比较同一个基因在不同样本中所占的read数的比例。而RPKM/FPKM由于最终的表达值矩阵的列和不同,故而不能直接比较同一个基因在不同样本中所占的read数的比例。
reads_count
- 定义:高通量测序中比对到exon上的reads数。可使用featureCount,htseq等软件进行计算。
- 优点:可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况。有利于实验验证。
- 缺点:由于exon长度不同,难以进行不同exon丰度比较;由于测序总数不同,难以对不同测序样本间进行比较。
【参考】:
http://www.bioinfo-scrounger.com/archives/342
http://www.bio-info-trainee.com/2017.html
https://vip.biotrainee.com/d/63-rpkm-fpkm-rpm-tpm
https://www.jianshu.com/p/c25e84383ae3