KEGG数据库:查找某个通路上的所有基因
1.kegg数据库下载
通常我们如果已知某个基因,想对这个基因做通路很简单,直接用kegg的网页注释就可以;如果想知道某个通路里相关的所有基因列表,要找全的话只能从数据库里调了。数据库下载方式,参考本文:什么?KEGG数据你竟然还不会下载!!
人类的kegg注释文件下载https://pan.baidu.com/s/1o7XseDG.
A,B开头分别代表KEGG的分类;
C开头代表代谢通路,pathway;
D开头代表该通路里边的基因,其中第二列为ncbi_entrez_id和gene Symbol;
2.kegg数据库各前缀含义
1)K+num,表示在所有同源物种中具有相似结构或功能的一类同源蛋白;(注:K大写)---如,K04456 = 丝氨酸/苏氨酸蛋白激酶;
2)ko+num,表示代谢通路名称,表示一个特定的生物路径;(注:ko小写)---如,ko04151 = PI3K-Akt信号通路;
3)M+num,表示模块名称;---如,M00676 = PI3K-Akt信号模块;
4)map+num,表示KEGG中通用代谢通路图;无色;
5)hsa+num,表示KEGG中某特定物种代谢通路图;该类通路图中通常有绿色方框,表示该方框专属于该物种;hsa是人类的代号,若是别的物种,该代号会变更;
6)C+num,表示化合物名称;如C00533 = NO (一氧化氮)
7)-.-.-.- ,表示酶的名称;如EC2.7.11.1 = 丝氨酸/苏氨酸激酶(即K04456,AKT);在代谢通路图中,方框中通常会有-.-.-.-的数字,即表示酶;
8)R+num,表示反应名称;
9)RC+num,表示反应类型;
10)RP+num,表示反应物质对。
3. 各种ID转换
去HGNC数据库下载页面,下载protein-coding gene.txt这个文件,里边有各数据库之间的ID对应关系,可轻松应对各种转换。