【点】count、RPM、RPKM、FPKM、TPM
为什么需要标准化
标准化的主要目的是去除测序数据的技术偏差:测序深度和基因长度。
#测序深度:一个片段测了几遍
#测序覆盖度:测序片段匹配到目标区域的百分比
测序深度:测序深度越深,每个基因组装上的reads越多
基因长度:基因越长,产生的reads越多,组装上的reads就越多
我们需要的是基因的表达量,而不是reads数量,所以需要标准化reads的数量,从而表示基因表达量。
先定义几个变量
N:匹配到目标基因的reads数量,即count(见下方)
T:匹配到基因库的reads总数量
L:基因长度
counts
raw count (RC),即reads数量(N),主要受到测序技术、组装技术及基因长度、测序深度的影响。
RPM
Reads per million mapped reads
RPM=N/T*10^6
# N/T标准化(去除)测序深度的影响
# 10^6在标准化中仅仅是为了增加数字的可读性
RPM没有排除基因长度的影响,仅适用于不需要考虑基因长度的分析,如miRNA。
RPKM/FPKM
Reads/Fragments per kilo base per million mapped reads
RPKM=N/(T*L)*(10^6/10^3)
# N/T标准化基因长度的影响
# N*10^3大概与L同一个量级,增加数字可读性
FPKM与RPKM类似,但主要针对双末端转录本结果,双末端组装时是一对reads同时匹配,记两者重合片段(fragment)的count,所以大概就是除2,没太大区别。
# 如果不方便理解,先去查一下单末端与双末端测序。
RPKM/FPKM排除了基因长度的影响,适用于基因长度差异较大的目标基因库。
TPM
Transcript per million
TPM = RPKM/∑(RPKM)
总结:
RPM排除了单次测序深度的影响,使数据可以在组间比较;
RPKM进一步排除了基因长度的影响,使数据可以在基因间比较;
TPM再进一步将基因表达量化成百分比,使数据在不同基础表达量的细胞间比较