基因集富集分析 --- GSEA
基因集富集分析(Gene set enrichment analysis, GSEA)方法于2005年首次提出,题为Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles的相关论文发表于杂志PNAS,至今引用量已接近2万。
首先来看官网 https://www.gsea-msigdb.org/gsea/index.jsp 定义:
GSEAGene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes).
1. 算法理解
GSEA需要使用来自两个类别(标记为A或B)的样本的基因组表达谱进行分析。这些基因可以根据它们在两类间的差异表达,在一个秩次列表L中进行排序,给定一个先验定义的基因集S,GSEA的目标是确定S的成员是随机分布在整个L中,还是主要分布在顶部或底部。如基因集与表型相关则倾向于显示后一种分布。
GSEA方法有三个关键要素:
首先是 Enrichment Score (ES) 的计算 ,我们设表达谱数据D包含N个基因和k个样本,仍然是上述L和S,表型C,N个基因里包含在基因集S中的基因数NH,控制步长权重的指数p。
之后是 ES的显著性水平估计,基于置换检验,对表型标签进行了置换,并对置换数据重新计算基因集的ES,得到ES的零分布,基于零分布计算nominal P 值。注:如样本过少,在软件操作中也可以选择置换基因集。
最后是多重假设检验校正,对每个基因集的ES进行归一化,以考虑到集合的大小,从而得到归一化的富集分数 (normalized enrichment score, NES)。通过计算错误发现率 (FDR) 来控制误报的比例。同时提供另一种方法 familywise-error rate (FWER) 校正多重假设检验,该方法过于保守,一般不参考它。 The Leading-Edge Subset:在秩次列表L中出现的基因集S中的那些基因中,排序在ES值到达之前位置的基因。再看一遍图:
2. 软件操作
全网太多教程,珠玉在前,没必要再赘述。
最后分享2个链接,感觉各种细节都讲得很好
https://www.bioinfo-scrounger.com/archives/561/
http://rvdsd.top/2018/04/04/BIoTools/GSEA%E7%AC%94%E8%AE%B0/