GSEA 分析
过表征分析(ORA, Over-Representation Analysis)是最初用于在大量差异基因寻找/富集基因集方法,典型案例是表达谱分析取差异基因进行通路富集。而ORA有明显缺陷,比如假设基因间是独立的而这不可能,许多基因表达是相关联的。另一点是只分析差异基因,遗漏了可能变化小但是作用大的基因,同时如何筛选差异基因有极大人为性。而且ORA不考虑差异程度,A基因表达相差10倍B基因4倍在ORA下A和B是等同的。于是有了第二代方法FCS(Functional Class Scoring)。GSEA(Gene Set Enrichment Analysis)是其中一种,或者说是知名的那种。
GSEA原理如下图所示。先利用表达数据计算基因在2组(表型)差异,然后按照这个差异进行排序,这样这个基因排序列表一端比较体现A组特征,另一端比较体现B组特征。然后检验基因集更集中在哪一端,或者是比较平均分布无偏向性。基因集是自己定义的,自己可以把任意感兴趣多个基因作为集合去检验。实际操作一般是取KEGG, REACTOME, GO等信号通路去检验。在示意图中基因集S大部分集中在基因列表头部,所以现在这个基因集富集在A组。
基因排序列表有多种方法,像GSEA默认是S2N(Signal-to-Noise Ratio)。下图展示多种排序方法的计算方法。
ES(Enrichment score)是在遍历排序列表时,如果一个基因属于基因集S那么就加分,如果不属于就减分。有富集的基因集ES图往往表现为单峰,其中对ES值贡献的部分基因被称之为 leading edge subset。对ES计算初始是无加权方法,所有基因权重相同,这导致最高ES得分靠近基因列表中间位置,如下图所示。现在方法是按照基因与表型关系进行加权
Permutation type选择:如下图所示,GSEA软件提供 phenotype 和 gene_set 两种 permutation type 选择。其中 phenotype 是更好的,但如果你样品不多就选择 gene_set 。GSEA建议根据每组样本数是否达到7操作,如果你有一组样本不足7,那就选 gene_set 。如果2组样本都达到7,就选择 phenotype。
[参考]
Subramanian A, Tamayo P, Mootha V K, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles[J]. Proceedings of the National Academy of Sciences, 2005, 102(43): 15545-15550.
Zyla J, Marczyk M, Weiner J, et al. Ranking metrics in gene set enrichment analysis: do they matter?[J]. BMC bioinformatics, 2017, 18(1): 256.
Tarca A L, Bhatti G, Romero R. A comparison of gene set analysis methods in terms of sensitivity, prioritization and specificity[J]. PloS one, 2013, 8(11): e79217.