生信精读文献生信在线数据库生物信息学

一篇零代码的富集分析流程文章

2019-01-29  本文已影响12人  小洁忘了怎么分身

Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap
使用g:Profiler,GSEA,Cytoscape和EnrichmentMap对组学数据进行通路富集分析和可视化
发表在nature protocols。在生信星球公众号聊天窗口回复“121”可获取原文pdf。对文章进行了简单理解和翻译,由于我是跨专业,没有什么背景知识积累,有不准确的地方欢迎批评指正。

摘要

通路富集分析有助于研究人员获得从基因组规模(组学)实验产生的基因列表的机制洞察。该方法鉴定的基因列表中富含的生物通路比偶然预期的更多。我们解释了通路富集分析的程序,并提供了一个实用的逐步指导,以帮助解释由RNA-seq和基因组测序实验产生的基因列表。该方案包括三个主要步骤:从组学数据定义基因列表,确定统计学上富集的通路,以及结果的可视化和解释。我们描述了如何将该方案与差异表达基因和突变癌基因的已发表实例一起使用; 但是,这些原则可以应用于各种类型的组学数据。该流程描述了创新型可视化技术,提供了全面的背景和故障排除指南,并使用免费提供和经常更新的软件,包括g:Profiler,Gene Set Enrichment Analysis(GSEA),Cytoscape和EnrichmentMap。完整的流程可在约4.5小时内完成,设计用于没有事先生物信息学培训的生物学家。

Introduction

现在,生物样品中DNA,RNA和蛋白质的全面定量1⃣已成为常规。由此产生的数据是呈指数式增长,他们的分析有助于研究人员发现新的生物学功能,基因型-表型关系和疾病机理12。然而,对这些数据的分析和解释是许多研究人员面临的主要挑战。分析经常导致需要不切实际的大量手工文献搜索解释的长基因列表。解决该问题的标准方法是通路富集分析,其将大基因列表概括为更容易解释的通路的较小列表。通过几个常见的统计检验,考虑实验中检测到的基因数量,相对排名以及注释到通路的基因数量,对实验基因列表中相对于偶然预期的过度表达进行统计检验。例如,含有40%细胞周期基因的实验数据令人惊讶地富集,因为只有8%的人类蛋白质编码基因参与了这一过程。

在最近的一个例子中,我们使用通路富集分析来帮助识别多梳抑制复合物(PRC2)的组蛋白和DNA甲基化作为室管膜瘤的第一个合理治疗靶点,室管膜瘤是最常见的儿童脑癌之一3。该通路可通过可用的药物如5-氮杂胞苷来靶向,其在患有终末病的患者中以富有同情心的方式使用并且停止快速转移性肿瘤生长3。在另一个例子中,我们分析了自闭症罕见的拷贝数变异(CNV的),并确定受基因缺失影响的重要通路,而通过对单个基因或基因座的病例对照关联试验,几乎没有发现显著的影响(4),5。这些实例说明了使用通路富集分析可以实现的生物学机制的有用见解。

Development of the protocol

该流程涵盖了源自基因组规模(组学)技术的大基因列表的通路富集分析。该流程适用于对解释其组学数据感兴趣的实验生物学家。它只需要一个学习和使用“单击”计算机软件的能力,尽管高级用户可以从我们提供的补充流程自动分析脚本中获益1 - 4。我们分析先前公布的人基因的表达和体细胞突变的数据作为实例678; 然而,我们的概念框架适用于分析来自大规模数据的任何生物的基因或生物分子列表,包括蛋白质组学,基因组学,表观基因组学和基因调控研究。我们广泛使用的通路富集分析了许多项目,并已评估了许多可用的工具9101112。我们在这里介绍的软件包因其易用性,免费访问,高级功能,大量文档和最新数据库而被选中,它们是我们在研究中每天使用的软件包,并向合作者和学生推荐。此外,我们还向这些工具的开发人员提供了反馈,使他们能够实现我们在已发布分析中所需的功能。这些工具是g:Profiler 13,GSEA 14,Cytoscape 15和EnrichmentMap 16,所有这些都可以在线免费获得:

Overview of the procedure

本节概述了通路富集分析的主要阶段。下面的过程中提供了详细的逐步流程。通路富集分析涉及三个主要阶段(图1 ;参见框1的基本定义)。

  1. 使用组学数据定义感兴趣的基因列表。组学实验在实验环境中全面测量基因的活性。考虑到实验设计,得到的原始数据集通常需要计算处理,例如归一化和评分,以识别感兴趣的基因。例如,可以从RNA-seq数据17导出两组样品之间差异表达的基因列表。从其它类型的组学实验,如基因表达芯片得到的基因列表18,定量蛋白质组学1920,种系和体细胞的基因组测序212223和总体DNA甲基化测定法2425,可以在该流程中使用; 但是,每种类型的数据都可能需要特定的预处理步骤(参见“与替代方法的比较”部分)。

  2. 通路丰富分析。统计方法用于鉴定第1阶段基因列表中富集的通路,相对于偶然预期的通路。测试给定数据库中的所有通路以在基因列表中富集(参见框2以获得通路数据库列表)。可以使用几种已建立的通路富集分析方法,并且选择使用哪种方法取决于基因列表的类型(参见“对替代方法的比较”部分)。

  3. 通路富集分析结果的可视化和解释。在阶段2中可以鉴定许多富集通路,通常包括相同通路的相关版本。可视化有助于确定主要的生物学主题及其关系,以进行深入研究和实验评估。

图1:流程概述。

fig1|来自不同组学数据的基因列表经历通路富集分析,使用g:Profiler或GSEA,以鉴定在实验中富集的通路。使用其EnrichmentMap,AutoAnnotate,WordCloud和clusterMaker2应用程序在Cytoscape中可视化和解释通路富集分析结果。流程概述显示在左侧,从基因列表输入开始,每个阶段的示例输出显示在右侧。

Box 1 | Definitions

Pathway。共同实现生物过程的多个基因。

Gene set。一组相关的基因。“通路基因集”包括通路中的所有基因。基因组可以基于基因之间的各种关系,例如细胞定位(例如,核基因)或酶功能(例如,蛋白激酶)。蛋白质相互作用等细节不包括在内。

Gene list of interest。来自组学实验的基因列表,其输入到通路富集分析中。

Ranked gene list。在许多组学数据(例如,来自用于基因表达的RNA-seq的数据)中,可以根据一些分数(例如,差异表达水平)对基因进行分级,以提供用于通路富集分析的更多信息。富集在排序列表顶部的基因的通路得分高于如果通路基因随机分散在排序列表中的情况。

Pathway enrichment analysis。一种统计技术,用于鉴定在基因列表或排序的目标基因列表中显着表示的通路。

Multiple testing correction。可以单独测试数以千计的通路进行富集,这可能导致显着的富集P值单独出现。多重检测校正是一种统计技术,用于校正个体富集测试中的P值以解决该问题并减少假阳性富集的机会(方框3)。

Leading-edge gene.。在GSEA分析中在最大ES处或之前的排名中发现的基因子集。这个基因子集通常可以解释被定义为富集的通路。

Box2 通路富集分析资源

Pathway databases

我们列出了一系列大型,开放获取且便于访问的通路数据库,这些数据库为通路富集分析提供了最大价值。数百个通路数据库可用于多种目的82

Gene set databases

*基因本体论(GO)57:GO为生物过程,分子功能和细胞组分提供数千个标准化术语的分层组织,以及基于这些术语的多种物种的策划和预测基因注释。生物学过程GO注释是通路富集分析中最常用的资源。

Detailed biochemical pathway databases

这些数据库由管理团队维护,他们手动收集详细的通路信息,包括生化反应,基因调控事件和其他基因相互作用。信息可以导出或转换为基因集格式。

Pathway meta-databases

这些数据库收集自多个源通路数据库的详细通路描述。

上一篇下一篇

猜你喜欢

热点阅读