高质量生信文章收录GSEA

GSEA(Gene Set Enrichment Analysi

2019-06-04  本文已影响0人  Juan_NF

富集分析方法

ORA局限性:

1.有可能在多重假设检验后不存在具有统计学意义的差异基因存在;
2.又或者,具有统计学意义的基因很多,但并不富集于统一的生物学主题;相应的阐述可能冗长、主观,主要依赖生物学家的专业知识;
3.单基因分析可能丢失对通路影响的重要信息;细胞过程通常会对多个基因造成影响; 代谢通路中所有编码基因的表达增加20%对通路造成的影响可能比单个基因增加20倍更重要;
4.不同的课题组研究同一种生物现象时,得到的具有统计学意义的基因list的overlap很少;

GSEA的优势:

1.在基因集的水平上进行分析;
2.基于先验的生物学知识(基因集S);
3.不具有统计学意义的基因也会考虑进去(Gene List L);
4.目的:观察基因集S中的基因在L中是随机分布还是集中在top/bottom(预期是如果富集,会呈现出后面的分布);

GSEA的步骤

1.ES(Enrichment Score)的计算
Kolmogorov-Smirnov test
  • 详细介绍可参见
    https://www.cnblogs.com/arkenstone/p/5496761.html
  • 以gseKEGG为例,K-S test检验的是,treat vs control(geneList-L)的分布与geneSet的分布是否一致,检验得到的结果是ES;
  • geneList为ID依据logFC排序所得,L中的基因在S中,sum increase,不在S中,sum decrease,最终得到的max|sum|即为ES;



2.ES 显著水平的计算
permutation test
  • 详细介绍可参见:
    https://www.plob.org/article/3176.html
  • gene_set permutation生成随机基因集(我的理解是,从geneList中随机抽取(number of genes in gene_set)个基因得到),产生ES(S, pi) ,集合所有ES(S, pi) 形成直方图,对ES的显著水平进行检验(p=percentage of ES(S, pi)>=ES(S));
    p.vlaue的解释见:
    https://www.jianshu.com/p/eede4ea05f59
3.多重假设检验校正
FDR

不咋华丽的分割线,结合上clusterprofiler的gseKEGG函数理解下:

gseKEGG

kk_gse <- gseKEGG(geneList     = geneList,
                  organism     = 'mmu',
                  nPerm        = 1000,
                  minGSSize    = 10,
                  verbose      = FALSE)

课程分享
生信技能树全球公益巡讲
https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小时生信工程师教学视频合辑
https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招学徒:
https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

上一篇 下一篇

猜你喜欢

热点阅读