生信必备生物知识R语言做生信RNA-seq

富集分析

2018-11-30  本文已影响17人  Y大宽

写在前面:


两类富集分析


A:差异基因富集分析(不需要表达值,只需要gene name)


-----------富集什么-----------

--------什么是富集(原理)--------

富集的统计学基础是超几何分布,简单来说根据下面的Fisher精确检验(Fisher exact test)公式,对每个GO或KEGG term计算一个p值
p=(M/K)[(N-M)/(n-k)]/(N/n),其中
N:所有gene总数
n:N中差异表达gene的总数
M:N中属于某个GO term的gene个数
k: n中属于某个GO term的gene个数
p:表示差异表达gene富集到这个GO term上的可信程度

---------------拿什么来富集---------------

得到的差异表达基因列表就可以,也就是说不需要其他的值

---------------用什么工具富集--------------

只能说实在是太多太多了。。。。但是用的时候要小心,因为你多用几个工具,即使设定同样的p值也会发现结果有出入,有时还差异挺大。

1 按使用方式来说(简单度)有3种


B: 基因集(gene set)富集分析(不管有无差异,需要全部genes表达值)


上一篇 下一篇

猜你喜欢

热点阅读