RNA-seq生信转录组数据分析

【点】count、RPM、RPKM、FPKM、TPM

2021-07-26  本文已影响0人  JamesMori

为什么需要标准化

标准化的主要目的是去除测序数据的技术偏差:测序深度和基因长度。

#测序深度:一个片段测了几遍

#测序覆盖度:测序片段匹配到目标区域的百分比

测序深度:测序深度越深,每个基因组装上的reads越多

基因长度:基因越长,产生的reads越多,组装上的reads就越多

我们需要的是基因的表达量,而不是reads数量,所以需要标准化reads的数量,从而表示基因表达量。


先定义几个变量

N:匹配到目标基因的reads数量,即count(见下方)

T:匹配到基因库的reads总数量

L:基因长度

counts

raw count (RC),即reads数量(N),主要受到测序技术、组装技术及基因长度、测序深度的影响。

RPM

Reads per million mapped reads

RPM=N/T*10^6

# N/T标准化(去除)测序深度的影响

# 10^6在标准化中仅仅是为了增加数字的可读性

RPM没有排除基因长度的影响,仅适用于不需要考虑基因长度的分析,如miRNA。

RPKM/FPKM

Reads/Fragments per kilo base per million mapped reads

RPKM=N/(T*L)*(10^6/10^3)

# N/T标准化基因长度的影响

# N*10^3大概与L同一个量级,增加数字可读性

FPKM与RPKM类似,但主要针对双末端转录本结果,双末端组装时是一对reads同时匹配,记两者重合片段(fragment)的count,所以大概就是除2,没太大区别。

# 如果不方便理解,先去查一下单末端与双末端测序。

RPKM/FPKM排除了基因长度的影响,适用于基因长度差异较大的目标基因库。

TPM

Transcript per million

TPM = RPKM/∑(RPKM)


总结:

RPM排除了单次测序深度的影响,使数据可以在组间比较;

RPKM进一步排除了基因长度的影响,使数据可以在基因间比较;

TPM再进一步将基因表达量化成百分比,使数据在不同基础表达量的细胞间比较

上一篇下一篇

猜你喜欢

热点阅读