DESeq2数据校正算法

2020-02-26  本文已影响0人  研究僧小蓝哥

DESeq2常常用于RNA-Seq数据分析,也有用于微生物组数据分析的^{[1]}DESeq可以直接处理FPKMFTPMTPMCPM数据,在处理微生物数据时用OTU数据。
本贴就简单说说DESeq2是如何校正数据的。


假设有2个样本,6个基因:

样本信息

可以发现每个基因在样本2中的表达量都是样本1中的2倍。这个很可能不是由于样本本身的生物学因素引起的,而是由于测序的深度等影响的。需要对样本基因的表达量进行校正。


Step1:取对数值

假设有如下的基因表达情况:

先对每个表达量取以e为底数的对数:

Step2:求每个基因表达量的均值

对每个基因(没行)求均值:

Step3:筛选表达量非零的基因

基因A在取对数值后出现负无穷大,所以将这个基因暂时剔除。

Step4:求表达量的中位数

求出每个样本基因表达的中位数:

Step5:求出scaleing factor

根据公式scaleing factor = e^{median}求出每个样本基因表达量的scaleing factor。

Step6:每个表达量的值除以scaleing factor

将每个样品中每个基因的表达量除以样品对应的scaleing factor即可。


参考文献

[1] EDWARDS J, JOHNSON C, SANTOS-MEDELLíN C et al. Structure, variation, and assembly of the root-associated microbiomes of rice[J]. Proceedings of the National Academy of Sciences, 2015: 112: E911-E920.


致谢:感谢StatQuest视频栏目。

上一篇下一篇

猜你喜欢

热点阅读