基因富集分析 / KEGG / GO / MsigDB和GSEA
1 为何做富集分析?
在进行差异基因分析时会获得大量基因,但海量的基因不好系统分析、找到相似规律,则需要我们进行注释并基因不分析与哪些与疾病相关的通路相关,以便进一步挖掘有用信息。
2 Gene Ontology(GO)
GO数据库:GO(Gene Ontology)是基因本体联合会(GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的, 对基因和蛋白质功能进行限定和描述的。GO是多种生物本体语言中的一种, 提供了三层结构的系统定义方式,用于描述基因产物的功能。全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP)。
3 Kyoto Encyclopedia of Genes and GenomesGene Ontology(KEGG)
KEGG数据库:KEGG (Kyoto Encyclopedia of Genes and Genomes)由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立,是一个整合了基因组、化学和系统功能信息的数据库。KEGG把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来。除了对基因本身功能的注释,我们也知道基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实通路数据库有很多,类似于wikipathway,reactome都是相关的通路数据库,但KEGG应用更多更被大家所熟知而已。
4 GO、KEGG关系?
GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。本质上两者就是两个数据库,含有有每个基因相关的功能信息。
5 为何进行GSEA
一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,对于差异基因检出的阈值,异常的敏感,客户需要给出差异基因的一个明确的定义(阈值),例如abs(logFC) ≧2.0 & FDR ≦ 0.05,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
6 MSigDB(Molecular Signatures Database)
MSigDB(Molecular Signatures Database)分子特征数据库是一组带注释的基因集,可与 GSEA 软件一起使用。这是一组用于 GSEA 软件的带注释基因集,数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb.
包括H和C1-C7八个系列(Collection),每个系列内容为:
MSigDB分類 | 介紹 |
---|---|
H: Hallmark Gene Set | (效应)特征基因集合,共50组 |
C1: Positional Gene Set | positional gene sets 位置基因集合,根据染色体位置,共299个 |
C2: Curated Gene Set | 这里包含4729组gene sets,整合来自其他资料库如pubmet、reactome 、pathway database、BioCarta pathway database、KEGG gene sets等,(专家)共识基因集合,基于通路、文献等,共有5529个基因集,我们比较关注的是KEGG ,186个基因集。 |
C3: Motif Gene Set | 模式基因集合,主要包括microRNA和转录因子靶基因两部分。总共3735个基因集。 |
C4: Computational Gene Set | 计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合。 |
C5: GO Gene Set | Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分),这部分,我们也是比较关注的,所以能用GSEA分析就用GSEA。 |
C6: Oncogenic Signatures | 癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据。 |
C7: Immunologic Signatures | 免疫相关基因集合。 |
7 Gene Set Enrichment Analysis (GSEA)
GSEA:基因集富集分析 (Gene Set Enrichment Analysis, GSEA) ,其基本思想是使用预定义的基因集(通常来自功能注释或先前实验的结果),将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。
img