富集分析原理

2020-08-25 本文已影响0人大号在这里

富集分析应该算是最常用的分析方法之一了，但许多同学对它也只是一知半解，脑子里还有许多疑问，比如前景基因是什么？背景基因用什么？结果用什么图形表示？显著富集气泡图里的Rich factor和显著富集柱状图里的Gene Percent分别代表什么等等。今天基迪奥就来为你一一解答，一定要跟上哦。（橙字为太长不看版）

1. 富集分析原理是什么？

基因功能富集分析，是指借助各类数据库和分析工具进行统计分析，挖掘在数据库中与我们要研究的生物学问题具有显著相关性的基因功能类别。它的统计原理是用超几何分布型来检验一组基因（共表达或差异表达)中某个功能类的显著性，通过离散分布的显著性分析、富集度分析和假阳性分析, 得出与实验目的有显著关联的、低假阳性率的及靶向性的基因功能类别。

通俗易懂的讲，就是把我们挑出来的基因归归类，看看哪些基因的功能和我们的研究相关，然后做个检验，根据P值判断这个相关性是随机的，还是显著的。要想更准确一点，就在做个假阳性发现率的检验，用Q值再判断一次，哪些功能的基因和我们的研究最相关。

富集分析里的P值计算过程如下：

N为所有基因中具有pathway/GO term注释的基因数目；n为N中差异表达基因的数目；M为所有基因中注释为某特定pathway/GO term的基因数目；m为注释为某特定pathway/GO term的差异表达基因数目。

通过计算得到的P value会进一步经过多重检验校正，通常应用的是BH方法，得到FDR值。然后以FDR≤0.05为阈值，满足此条件的pathway/GO term定义为在差异表达基因中显著富集的pathway/GO term。

2. 前景基因与背景基因

这有两个重要的概念，前景基因和背景基因。因为所谓富集，就是比较某个GO term里的基因在前景基因所占的比例是否显著高于这个 GO term里的基因在背景基因所占的比例，然后根据p<0.05，判断是否有显著富集。

2.1 前景基因：

通常是实验组和对照组之间，表达量发生显著变化的差异基因。但我们做富集分析，是为了看我们所关注的基因被归类到了哪些通路当中，主要富集在了哪些通路当中。所以，除了差异基因，我们也可以选择其他的基因集去做富集分析。

比如，在趋势分析当中，我们可以把显著富集的模块中的基因作为前景基因，研究这些表达量变化一致的基因的功能。再比如，在circRNA的研究当中，我们可以把circRNA来源基因作为前景基因，也可以把差异表达的circRNA的来源基因作为前景基因，去分析这些circRNA可能存在的功能。

2.2 背景基因：

对于有参的物种来说，一般建议用参考基因组上的全部基因，对于无参的物种来说，选择组装出来的全部unigenes作为背景基因。

对于有参物种来说，差异基因固定注释到某一个通路的基因数目是一定的，但我们进行测序的时候可能不会获得基因组上的全部基因，用得到的表达量表注释到某一个通路的背景基因可能就少了，P值大小就会有所不同。

有一篇文献提出，在做富集分析的时候应该选择被检测到的并且有表达的全部基因作为背景基因，以避免实验中的技术或者检测的偏差以及生物学偏差。而且，我们做实验通常取了固定组织去分析，如果用了基因组全部的基因，那文章的意义就变成了告诉大家我们正在研究这个组织，其实不算真正探讨了这个组织内的基因富集情况[1]。

但我们在实际的研究当中，为了最大化地获得富集的信息，通常还是选择基因组全部的基因当作背景基因。对于非常见的模式生物来说，也会选择测序得到的基因作为背景基因。

3. 富集分析结果怎么看？

3.1 有向无环图

如果一个有向图从任意顶点出发无法经过若干条边回到该点，这个图就是一个有向无环图（directed acyclic graph，DAG），这个图是计算机图论中一种用于储存和检索数据信息的结构形式，可以利用多种搜索方法来进行存储和检索有向无环图中的数据，在软件设计、企业信息及生物信息学领域，都有应用。

GO数据库是最流行的基因注释库之一，不仅因为这个数据库大且详细，而且是具有高度结构性的，所以可以应用这种图形去呈现结果。

关于有的文章里出现的GO-tree那种GO term之间 “is a、part of 和 regulates” 的关系，大家可以查看论坛里面的帖子理解一下：

《 GO数据库的分类层级说明》
https://www.omicshare.com/forum/thread-538-1-1.html

在常见GO的DAG图中，三个ontology会分开描述（如上图），每个图有一个根和可能上千个节点，没有区分is a、part of这两种类型的关系[2]，只表示了上下层级的关系；

形状：方形是默认输出的显著性最高的前10个GO term，其他就都是圆形了；

颜色：颜色越深，代表p值越小，富集越显著；

文字：图形里各文字的含义如下

image

1:GO term编号
2:GO term描绘速
3:P值
4:前景基因中注释到该term的基因数目/背景基因中注释到该term的基因数

3.2 富集气泡图

高级气泡图可以对数据库富集的通路进行可视化，是富集常用的可视化图形之一，一般我们会挑选显著分析的前20左右的 pathway/term进行展示，这里以GO富集气泡图为例。

X轴：RichFactor，富集因子，是指前景基因集中属于这个term的基因的数量/背景基因集中富集在这个term中所有基因的数量；
Y轴：GO term名称；
气泡颜色：Q值（也可以用P值绘图），代表富集显著程度，在这个图形当中，颜色越红代表Q值越小，富集程度越高；
气泡大小：数量，前景基因集中属于这个term的基因数量。

3.3 富集柱状图

柱状图也是对数据库富集的通路进行可视化的一种方式，是富集常用的另外一种可视化图形，一般来说，它同样挑选显著分析的前20左右的 pathway/term进行展示，这里以KEGG富集结果为例。

X轴：Gene Percent(%)，柱子长短代表前景基因富集在该pathway上数目占所有前景基因的百分比。柱子上的数字为基因数量，和对应的q值；
Y轴：Pathway名称；
柱状图颜色：Q值（也可以用P值绘图），代表富集显著程度，颜色越深代表Q值越小，富集程度越高。

4. 怎么做后续分析？

后续分析通常是根据富集的结果，关注最显著富集（Q<0.05 or p<0.05）的TOP N的通路，挑出与研究的问题最相关的通路，再结合基因表达量变化的程度，挑出有用的基因进行研究。在这个过程中，可以根据富集的结果去扩大或缩小Q值或P值的范围，直到找到合适的通路。

如果没有显著富集也没关系，最重要的是这通路要有用！我们做富集的目的就是为了筛选基因的，只要能筛选到我们想要研究的基因就可以，在这个过程中通常也会筛选出明星分子，一些文献可能早有相关报道。后续的研究通常是对这个基因进行敲除或者过表达，以某个可能是转录因子的基因为中心，构建调控网络图，最简单的是对表达量变化的基因进行qPCR的验证。

和GSEA有什么差别?

传统的富集分析由于是用阈值进行筛选，如果差异基因数量只有几十个，分散在各类通路当中，无法形成富集效应，只靠阈值，就会将这些有用而且变化微弱的基因剔除掉,排除掉了从这些微弱变化的基因中挖掘有效信息的可能。所以这时候就提出了另外一种富集的方法，Gene set enrichment analysis，即GSEA。

这种方法和传统的富集方法相比，GSEA是以基因集为单位对基因的富集情况进行判断。首先将我们要研究的基因集里的基因按照差异倍数或者差异显著性P值等进行排序，再和已知功能的基因集进行对比，看后者在前者的分布情况，然后根据富集得分（ES值）去判断我们要研究的基因集是不是和我们关注的通路相关。

GSEA分析结果图

具体代码实现参考前面《GO、KEGG富集分析（二）纯无参自定义物种》