【点】count、RPM、RPKM、FPKM、TPM

2021-07-26 本文已影响0人 JamesMori

为什么需要标准化

标准化的主要目的是去除测序数据的技术偏差：测序深度和基因长度。

#测序深度：一个片段测了几遍

#测序覆盖度：测序片段匹配到目标区域的百分比

测序深度：测序深度越深，每个基因组装上的reads越多

基因长度：基因越长，产生的reads越多，组装上的reads就越多

我们需要的是基因的表达量，而不是reads数量，所以需要标准化reads的数量，从而表示基因表达量。

先定义几个变量

N：匹配到目标基因的reads数量，即count（见下方）

T：匹配到基因库的reads总数量

L：基因长度

raw count (RC)，即reads数量（N），主要受到测序技术、组装技术及基因长度、测序深度的影响。

Reads per million mapped reads

RPM=N/T*10^6

# N/T标准化（去除）测序深度的影响

# 10^6在标准化中仅仅是为了增加数字的可读性

RPM没有排除基因长度的影响，仅适用于不需要考虑基因长度的分析，如miRNA。

Reads/Fragments per kilo base per million mapped reads

RPKM=N/(T*L)*(10^6/10^3)

# N/T标准化基因长度的影响

# N*10^3大概与L同一个量级，增加数字可读性

FPKM与RPKM类似，但主要针对双末端转录本结果，双末端组装时是一对reads同时匹配，记两者重合片段（fragment）的count，所以大概就是除2，没太大区别。

# 如果不方便理解，先去查一下单末端与双末端测序。

RPKM/FPKM排除了基因长度的影响，适用于基因长度差异较大的目标基因库。

Transcript per million

TPM = RPKM/∑(RPKM)

总结：

RPM排除了单次测序深度的影响，使数据可以在组间比较；

RPKM进一步排除了基因长度的影响，使数据可以在基因间比较；

TPM再进一步将基因表达量化成百分比，使数据在不同基础表达量的细胞间比较