一、从数据库网页查询并下载目标通路包含的所有基因

2022-10-29  本文已影响0人  一一二二三三

当我们拿到基因表达数据之后,主要使用过表达分析(ORA)和基因集富集分析(GSEA)来探索基因的功能,有的时候还需要挑感兴趣的通路画图(热图、GSEA图之类的),借用Y叔ClusterProfiler小册子中的图来展示一下。
Biomedical Knowledge Mining using GOSemSim and clusterProfiler (yulab-smu.top)

Introduction
探索基因的功能自然离不开基因相互作用、通路的数据库,本帖主要介绍如何从相关数据库中查询并下载目标通路包含的所有基因,便于对课题研究内容的探索和个性化绘图。注,本帖面向无编程基础人员。

一、 Gene Ontology Resource

图1 GO主页

1. 简介

GO数据库主要提供GO itself
以及GO annotations
两大资源,前者提供GO terms之间的关系(Relations in the Gene Ontology
),后者提供Gene Product与GO terms的关系,从MF、BP和CC三个角度解释功能。
GO数据库更新统计:Gene Ontology Resource

2. 使用

官方推荐的主要功能和工具:
①浏览查询功能:主要是AmiGO 2, 还有其他的工具和功能见Tools to curate, browse, search and visualize GO
GO enrichment analysis :使用PANTHER

3. 查询并下载目标术语条目包含哪些基因

①使用主页/AmiGO根据查询术语的关键词/ID,如Apoptosis,点击详细术语条目,筛选目标信息后下载文本文件

图2 AmiGO查询条目
图3 GO术语条目详情界面
②在主页-Download ontology 界面下载所有信息,可下载的格式为.obo和.owl,使用界面提示的工具打开。 图4 下载所有GO条目

4. 其它资料及工具

①快速查询Go terms和Go annotations相关信息:QuickGO (ebi.ac.uk)
②本体数据相关集合:OntobeeOntology Lookup Service ; NCBO BioPortal
③PANTHER还提供GO slims terms;还可以下载一些信息,比如在PANTHER-downloads界面下载
PANTHER Pathway 3.6.6以供查询Pathway所含有的蛋白。

图5 PANTHER
④还有很多第三方的富集工具……

二、KEGG: Kyoto Encyclopedia of Genes and Genomes

1. 简介

KEGG - Table of Contents (genome.jp)

图1 KEGG数据库内容
图2 KEGG PATHWAY

2. 使用

①查询
②功能注释
BlastKOALA - Query Data Input (kegg.jp):使用氨基酸序列查询注释
GhostKOALA :适合宏基因组等大规模数据集的分析
KofamKOALA (genome.jp)

3. 查询并下载目标通路包含哪些基因

通过GSEA的Msigdb数据库的数据集(人和小鼠)

三、Reactome Pathway Database

1. 简介

一个包含细胞代谢和信号通路的开源数据库。

2.使用

①查询:Pathway Browser
②功能富集
……

3. 查询并下载目标通路包含哪些基因

①使用Pathway Browser检索通路并下载

image.png
②在主页-Download
界面下载所有信息,
image.png
解压后为.txt格式,展示如下,可见该文件以基因(第一列)为起点获取该基因相关的通路。
NCBI2Reactome_All_Levels.txt
其实下载界面还有很多数据可以尝试去下载探索一下,比如下面这个数据下载到的文件是人的.gmt文件。
Download——Reactome Pathways Gene Set
ReactomPathways.gmt

四、WikiPathways

又是可以在左侧工具栏中Browse和tools里面一番探索,对数据库的介绍就有针对性地搜相关帖子吧,这里直奔主题——

查询并下载目标通路包含哪些基因
Download

点击Download进去之后,选择物种右键链接另存为即可下载.gmt文件,文件展示如下,看来还需要介绍一个基因ID转换工具……


wikipathways-20221010-gmt-Mus_musculus.gmt

五、GSEA | MSigDB

1. 简介

GSEA分析是个什么鬼?(上) (360doc.com)
这篇推文对MSigDB数据库内容做了介绍,下图中圈起来的有上面提到过的通路数据库数据,以及无法直接访问的BIOCARTA,PID数据库的数据,所以也可以在这里下载这些数据库的通路所包含的基因。

Human Gene Sets
2. 查询并下载目标通路包含哪些基因

①Browse检索具体通路并下载.gmt等文件


MSigDB具体通路

②下载所有信息
Downloads (gsea-msigdb.org)

下载ZIP文件 msigdb_v2022.1.Hs_GMTs

其它的数据库有的是对以上数据库的通路进行了二次的整理,改变数据展现逻辑和形式方便我们探索,并增加一些新的分析功能,如网络可视化,美观的通路图之类的
SMPDB
PathCards
通路和图表 | Cell Signaling Technology
BioCyc Pathway/Genome Database Collection:代谢途径的数据库集合

BioCyc相关数据库

另外:

推荐两个通路数据库的整合数据库资源:
Pathway Commons: A Resource for Biological Pathway Analysis整合来自不同的功能和分子相互作用数据库的数据,还提供网络的可视化。


Pathguide提供702个通路和分子相互作用相关数据库的信息,像是一个百宝箱,可以获取数据库的简介、更新日期相关文章之类的信息。
Pathguide
上一篇下一篇

猜你喜欢

热点阅读