生统笔记1- 转录组差异表达分析中的log2FC和FDR
2021-06-30 本文已影响0人
江湾青年
log2FC
log2FC中的FC即 fold change,表示两组样品间表达量的比值,对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准(即差异两倍以上的视为差异基因)。
FDR
FDR即False Discovery Rate,错误发现率,是通过对差异显著性p值(p-value)进行校正得到的。由于转录组测序的差异表达分析是对大量的基因表达值进行独立的统计假设检验,会存在假阳性问题,因此在进行差异表达分析过程中,采用了公认的Benjamini-Hochberg校正方法对原有假设检验得到的显著性p值(p-value)进行校正,并最终采用FDR作为差异表达基因筛选的关键指标。一般取FDR<0.01或者0.05作为默认标准。
举个例子:
假设现在有这样一个项目:
- 包含两个模型,共得到10000条转录本的表达量数据,
- 有100条转录本的表达量在两个模特中是有差异的。
- 针对个别基因的差异表达分析有1%的假阳性。
因为存在1%的假阳性的结果,在我们分析完10000个基因后,我们会得到 100 个假阳性导致的错误结果,加上 100 条真实存在的结果,在这个例子中,共计200个结果。那么在一次分析得到的200个差异表达基因中,就有50%都是假阳性导致的错误结果,这是非常高的。为了解决问题,FDR这个概念被引入,以控制最终得到的结果中假阳性的比例。
实际上,我们经常看到的差异表达火山图(如下图)里的几条虚线就是这两个指标的体现。
差异表达火山图
参考
http://www.360doc.com/content/19/0310/22/52334415_820596283.shtml
https://www.plob.org/article/14948.html