生信学习

2020-02-08 Day 23 学习GEO数据库中ID转换

2020-02-09  本文已影响0人  卅衣

GEO数据库中下载GSE数据后有时候会没有gene symbol
然后需要将下载文件中的ID转换为gene symbol
下载平台文件GPLXXX 在其中找到基因序列

image.png

然后将文件中的ID与平台文件中ID进行转换

首先下载安装GEOquery包

需要在R中安装GEOquery包 代码如下
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(version='devel')
BiocManager::install("GEOquery")

下载平台文件和提取ID

1 library(GEOquery)
2 GPLXXX <-getGEO('GPLXXX',destdir =".")
下载很慢
3 GPLXX_anno <- Table(GPLXX)

library(dplyr)
library(tidyr)
XX <- GPLXX_anno %>%
select(ID,gene_assignment) %>%
filter(gene_assignment != "---") %>%
separate(gene_assignment,c("drop","symbol"),sep="//") %>%
select(-drop)


image.png

得到ID 和symbol对应关系

数据文件ID与gene symbol转换

names(源文件)[1] <- names(XX)[1]
源文件ID<- as.character(源文件ID)

library(dplyr)

源文件<- 源文件 %>%

上一篇下一篇

猜你喜欢

热点阅读