基因集富集分析(Gene Set Enrichment Anal

2020-09-28 本文已影响0人生信交流平台

前面简单介绍过基因矩阵转置文件格式（* .gmt），并且也展示了如何使用R读取gmt文件，今天我们来看看如何做GSEA（Gene Set Enrichment Analysis，基因集富集分析）以及GSEA的结果如何解读。

首先我们需要了解一下GSEA跟传统的基因富集分析有什么区别，有什么优势。我相信大家在做传统的基因功能富集分析的时候肯定遇到这样的情况，一条富集到的通路中，既有上调的差异表达基因，也有下调的差异表达基因，那么这条通路总体是被抑制还是被激活呢？那么这条通路中的基因表达水平在实验组相比于对照组究竟是上升了呢，还是下降了呢？

在传统的富集分析时，我们其实根本不关心这些差异表达的基因究竟是上调还是下调。这是因为传统的富集分析根本不考虑基因表达量的变化趋势，其算法的核心只关注这些差异表达基因的分布是否跟随机抽样得到的分布一致，即使在后续可视化时，我们在通路图上用不同颜色标记了上调和下调的基因，但是由于没有采用有效的统计学方法去分析这条通路中所有差异基因的总体变化趋势，这使得传统的富集分析结果无法回答上述的问题。

即使有些文章里面根据差异表达基因的上下调将差异表达基因分成两组分别进行基因富集分析，这样得到的结果也会有失偏颇，并不能反应差异表达基因的整体情况。有时甚至会出现自相矛盾的情况，上调的基因和下调的基因富集到相同的一条通路中，这时就很难解释结果了。

GSEA（Gene Set Enrichment Analysis），该方法发表于2005年的Gene set enrichment analysis: a knowledge-based approach forinterpreting genome-wide expression profiles，是一种基于基因集的富集分析方法，在对基因表达数据分析时，首先确定分析的目的，即选择MSigDB中的一个或多个功能基因集进行分析（基因矩阵转置文件格式（* .gmt）中已经介绍过），然后基于基因表达数据与表型的关联度（也可以理解为表达量的变化）的大小进行排序。然后判断每个基因集内的基因是否富集于表型相关度排序后基因列表的上部或下部，从而判断此基因集内基因的协同变化对表型变化的影响。以上其实就是GSEA的分析原理。下面我们就借助一张图来帮助大家更好的理解GSEA的分析原理。

GSEA的输入是一个基因表达量矩阵，其中的样本分成了A和B两组，找到两组之间差异表达的基因，然后根据foldchange进行排序，用来表示基因在两组间表达量的变化趋势。排序之后的基因列表其顶部可以看做是上调的差异基因，其底部是下调的差异基因。GSEA分析的是一个基因集下的所有基因是否在这个排序列表的顶部或者底部富集，如果在顶部富集，我们可以说，从总体上看，该基因集是上调趋势，反之，如果在底部富集，则是下调趋势。

以上就是GSEA的分析原理，那么进行GSEA的结果怎样解读呢？

GSEA分析结果最常见的是下图：