生信分析

Metascape 专门为生物学者设计的基因富集分析网站

2021-10-14  本文已影响0人  PhageNanoenzyme
图片

一、Metascape简介

Metascape(http://metascape.org/) 是一个功能强大的基因功能注释分析工具,能帮助用户将当前流行的生物信息学分析方法应用到批量基因和蛋白质的分析中,以实现对基因或蛋白功能的认知。只需在Metascape网页几步简单的操作,就可以对大批量的基因或蛋白质进行注释、富集分析以及构建蛋白质-蛋白质互作网络。并且构建的蛋白互作网络还可以直接导出给Cytoscape使用,绘制美观、可发表的蛋白互作网络图。

2019年3月4日,Matascape团队总结了Metascape的使用就发表了一篇Nature communications,可见这个软件的被认可程度。其中提到Metascape网站在文章发表之前就已经被350多篇论文引用,其中不乏《自然》,《科学》,《细胞》等杂志。有趣的是约三分之二的引用文章直接使用了Metascape生成的图表

图片

a)摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5; b)摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3。

二、Metascape的工作流程

Metascape采用的是一种称为“CAME”的通用分析工作流程,概述如下:

图片

新版本的Metascape可以分析多种模式生物的基因,用户只需输入基因或蛋白质名称 (很多基因名均可识别),就可以借助Metascape网站快速获得基因注释、基因功能、基因分类、富集的通路以及蛋白质相互作用网络(可导入Cytoscape再处理)。这对于大多数的日常分析需求来说已经足够了。

三、Metascape的使用

,时长01:36

<input type="checkbox" title="显示工具栏" class="aria_hidden_abs" wah-hotarea="click" aria-hidden="true" style="margin: 0px; padding: 0px; outline: 0px; caret-color: var(--weui-BRAND); max-width: unset !important; box-sizing: unset !important; overflow-wrap: unset !important; font-family: inherit; font-size: 17px; white-space: normal !important; position: absolute; opacity: 0; overflow: hidden; left: auto; width: 1px; height: 1px;">

数据上传

在Metascape主页,用户可以在1处粘贴一个由逗号、冒号、空格、制表符或行分隔符组成的基因列表(基因名可以是:Entrez Gene ID、Ensembl ID、RefSeq、Symbol、UniProt ID、UCSC ID等等),或者在2可以选择本地的一个电子表格文件(xlsx、xls、csv或txt),其中的一列必须包含基因名称列。其它的数据列是可选的,在分析期间会被忽略。

图2 Metascape Home

图片

图3 数据格式举例

图片

富集分析

粘贴或上传好基因数据后,在图Step2中先选择Input as species,如果有对应物种的基因就选择对应物种,如果没有可以选择括号中数字最大的物种 (说明可以进行转换的基因比较多),选择Analysis as species也遵循上述原则。

选择好物种后点击Express Analysis即可进行快速分析。此时下方会显示一个进度条,之后会显示一个Analysis Report按钮,点击后会打开一个报告页面。

图片

快速分析(Express Analysis)包括最流行的注释源和基因本体 (Gene ontology)分类 (结果如下图)。对于经验丰富的用户,或希望对分析选项有更大控制权的用户,可使用自定义分析Custom Analysis。设置其中的一些选项能够更好地控制CAME分析流程。

图片

a) Metascape去除功能冗余的富集通路,用简单明了的bargraph显示出最主要的实验结果;b)富集生物通路可以以网络方式表现,这更利于理解通路或生物过程之间的关系;c)Metascape自动抽取提交列表中蕴含的蛋白质互作用网络;d)为了更容易理解这一网络,Metascape采用成熟的MCODE算法寻找网络中的密集联结的蛋白质群,并对每个群的生物功能进行注释。

分析结果

图5 Heatmap of enriched terms across input gene lists, colored by p-values.

图片

图6 Pathway and Process Enrichment Analysis

图片

蛋白蛋白互作

下图展示了在用户输入的基因中发现的蛋白——蛋白互作网络。其数据来源于BioGridInWeb_IMOmniPath等数据库。点击CYS 图标可以下载这个网络并可以用Cytoscape软件打开,可以进一步调整图形布局或加入基因表达等信息。

图7 Protein-protein Interaction Enrichment Analysis

图片

多基因列表联合分析

当代的多组学实验往往生成多个基因列表,目前的网络工具很少能同时分析并整合多基因列表,而这恰恰是Metascape的长处之一。其实Metascape的”meta”就是来源于多列表的meta-analysis。下图以三组过去独立发表的流感宿主因子列表为例进行说明。

图片

a) Metascape用heatmap让三组数据集共享的和独特的生物通路一目了然。b)富集通路也可以以网络呈现。由于每一组宿主因子用一个独特的颜色表示,我们可以很清楚的发现Viral gene expression是共享的而Regulation of cell development主要只存在于绿色对应的实验中。

四、定制分析

,时长03:44

<input type="checkbox" title="显示工具栏" class="aria_hidden_abs" wah-hotarea="click" aria-hidden="true" style="margin: 0px; padding: 0px; outline: 0px; caret-color: var(--weui-BRAND); max-width: unset !important; box-sizing: unset !important; overflow-wrap: unset !important; font-family: inherit; font-size: 17px; white-space: normal !important; position: absolute; opacity: 0; overflow: hidden; left: auto; width: 1px; height: 1px;">

五、作者自评

很多学者还在采用DAVID做富集通路分析。富集通路分析结果完全依赖于背后数据库的质量。DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。独立研究表明使用两年旧的Gene ontology数据库,用户平均要丢失20%的最新的生物知识。所以定期更新数据库的重要性非同小可。可惜现实是目前大家常使用富集分析工具中仅有40%被正常维护,不知读者目前使用的工具是否属于幸运的一类。Metascape每月更新背后的40多个数据库,以确保提供最准确的结果。

Metascape没有学习使用的壁垒,因为没有比一键Express Analysis更简单了。 虽然好用,Metascape实现的主要功能却是不折不扣。作者由于多年来在自己的科研项目中都要花大量的时间进行这些生物信息分析,所以决定把长期发表文章中体会到的best practices实现在Metascape中。由于常用的基因列表的分析工具仅限于提供单一通路富集分析,这就不幸给研究人员造成了列表分析就是等同于知识驱动的富集分析的误解。而数据驱动的蛋白质互作用网络分析就鲜有网站支持。其实除了以上描述的Metascape提供的林林总总的分析功能之外,其还有非常强大的对上千个基因进行注释或者利用知识库进行成员分析的功能,这些对于后续的基因筛选及其重要,详情请见文章或网站文档。要实现Metascape的这些分析功能对于生物信息人员都是有难度的。
这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次 (qq.com)

上一篇下一篇

猜你喜欢

热点阅读