2020-02-08 Day 23 学习GEO数据库中ID转换
2020-02-09 本文已影响0人
卅衣
GEO数据库中下载GSE数据后有时候会没有gene symbol
然后需要将下载文件中的ID转换为gene symbol
下载平台文件GPLXXX 在其中找到基因序列
然后将文件中的ID与平台文件中ID进行转换
首先下载安装GEOquery包
需要在R中安装GEOquery包 代码如下
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(version='devel')
BiocManager::install("GEOquery")
下载平台文件和提取ID
1 library(GEOquery)
2 GPLXXX <-getGEO('GPLXXX',destdir =".")
下载很慢
3 GPLXX_anno <- Table(GPLXX)
library(dplyr)
library(tidyr)
XX <- GPLXX_anno %>%
select(ID,gene_assignment) %>%
filter(gene_assignment != "---") %>%
separate(gene_assignment,c("drop","symbol"),sep="//") %>%
select(-drop)
image.png
得到ID 和symbol对应关系
数据文件ID与gene symbol转换
names(源文件)[1] <- names(XX)[1]
源文件ID)
library(dplyr)
源文件<- 源文件 %>%
- inner_join(XX,by="ID") %>%
- select(-ID) %>%
- select(symbol, everything()) %>%
- mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
- arrange(desc(rowMean)) %>%
- distinct(symbol,.keep_all = T) %>%
- select(-rowMean) %>%
-
tibble::column_to_rownames(colnames(.)[1])
write.csv(GSE88720,"cac.csv")
X
这篇学自果子学生信