生物信息小教程收藏生信

KEGG数据库:查找某个通路上的所有基因

2017-12-01  本文已影响72人  bio_橡树

1.kegg数据库下载

通常我们如果已知某个基因,想对这个基因做通路很简单,直接用kegg的网页注释就可以;如果想知道某个通路里相关的所有基因列表,要找全的话只能从数据库里调了。数据库下载方式,参考本文:什么?KEGG数据你竟然还不会下载!!

人类的kegg注释文件下载https://pan.baidu.com/s/1o7XseDG.

A,B开头分别代表KEGG的分类;

C开头代表代谢通路,pathway;

D开头代表该通路里边的基因,其中第二列为ncbi_entrez_id和gene Symbol;

2.kegg数据库各前缀含义

参考KEGG Map基础概念(一)

1)​K+num,表示在所有同源物种中具有相似结构或功能的一类同源蛋白;(注:K大写)---如,K04456 = 丝氨酸/苏氨酸蛋白激酶;

2)ko+num,表示代谢通路名称,表示一个特定的生物路径;(注:ko小写)​---如,ko04151 = PI3K-Akt信号通路;

3)M+num,表示模块名称​;---如,M00676 = PI3K-Akt信号模块;

4)map+num,表示KEGG中通用​代谢通路图;无色;

5)hsa+num,表示KEGG中某特定物种代谢通路图;该类通路图中通常有绿色方框,表示该方框专属于该物种;hsa是人类的代号,若是别的物种,该代号会变更;

6)​C+num,表示化合物名称;如C00533 = NO (一氧化氮)

7)-.-.-.- ,表示酶的名称;如EC2.7.11.1 = 丝氨酸/苏氨酸激酶(即K04456,AKT);在代谢通路图中,方框中通常会有-.-.-.-的数字,即表示酶;

8)R+num,表示反应名称;

9)RC+num,表示反应类型;

10)RP+num,表示反应物质对。​


3. 各种ID转换  

HGNC数据库下载页面,下载protein-coding gene.txt这个文件,里边有各数据库之间的ID对应关系,可轻松应对各种转换。

上一篇下一篇

猜你喜欢

热点阅读