rice related analysis生信修炼三维基因组学相关分析

R-下载某一条通路的所有基因名字(KEGG)

2020-05-26  本文已影响0人  SnowPye

实例:如何拿到KEGG数据库中多巴胺通路相关的基因集

一、确定目标通路

打开KEGG选择pathway,在搜索框前输入物种,框内填入关键词。



筛选结果显示仅有hsa04728符合我们的研究目的

二、下载hsa04728通路中的全部基因

1.安装R包KEGGREST

首次安装时电脑可能会显示与当前R语言版本不配,可以从bioconductor 的官网下载安装

if(!requireNamespace("BiocManager", quietly = TRUE))      
   install.packages("BiocManager") 
BiocManager::install("KEGGREST", version = "3.10") 

可以library一下这个包,里面包含了KEGG数据库的19个子数据库
,"pathway"、"genes" 、"ligand"、 "brite"为4个主要的数据库,其他的子数据库是在这4个数据库的基础上衍生出来的。

> library("KEGGREST") 
> listDatabases()  
[1] "pathway"  "brite"    "module"   "ko"       "genome"   "vg"       
[7] "ag"       "compound" "glycan"   "reaction" "rclass"   "enzyme"  
[13] "disease"  "drug"     "dgroup"   "environ"  "genes"    "ligand"  
[19] "kegg"  

2.提取通路信息

keggGet('hsa04728') 
gs<-keggGet('hsa04728')

三.提取全部基因

#获取通路中gene信息 
gs[[1]]$GENE 
#查找所有基因 
genes<-unlist(lapply(gs[[1]]$GENE,function(x) strsplit(x,';'))) 
genelist <- genes[1:length(genes)%%3 ==2] 
genelist <- data.frame(genelist)  
#把结果写入表格中 
write.table(genelist, "C:\\Users\\xxx\\Desktop\\hsa04728.csv",            
row.names=FALSE,col.names=TRUE,sep=",") 

最终可以获得一个表格,genelist中有132个基因name,即多巴胺通路hsa04718中涉及的所有的基因。

上一篇下一篇

猜你喜欢

热点阅读