【R>>探针ID转换】GB_ACC2SYMBOL
2021-09-01 本文已影响0人
高大石头
在处理E-MTAB-1980数据时,发现探针信息是以NM_和NR_开头的,这可怎么办呢?
搜索万能的度娘,发现这是属于GB_ACC的名称,那么怎么转换呢?
这时候发现一个帖子,探针注释文件中没有基因名字怎么办?(二)。
核心知识点:GB_ACC和symbol的对应关系。
UCSC上有这样对应关系的数据:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
下载refGene.txt.gz
文件,接下来就可以愉快的用R玩耍了。
1.E-MTAB-1980表达矩阵
rm(list = ls())
refgene <- data.table::fread("refGene.txt",data.table = F) %>%
select(2,13)
names(refgene) <- c("acc","symbol")
refgene <- unique(refgene)
eset <- data.table::fread("ccRCC_exp_log_quantile_normalized.txt",data.table = F) %>%
select(-c(1:2))
names(eset)[1] <- "acc"
# ID转换
eset1 <- refgene %>%
inner_join(eset,by="acc") %>%
select(-1) %>%
mutate(rowMean=rowMeans(.[,-1])) %>%
arrange(desc(rowMean)) %>%
distinct(symbol,.keep_all = T)
2.E-MTAB-1980临床数据
E-MTAB-1980的临床数据(包括OS)的数据藏的比较深,在下面这篇文章的supplementary Table1
# 临床信息
time <- data.table::fread("clinical-E-MTAB-1980.txt",data.table = F)
最后整合共有的样本,共得到101个临床样本。
3.实战
下面搜索使用E-MTAB-1980数据的文章:
至此,E-MTAB-1980的数据整理完毕,这样ccRCC的验证集有多了一个。
参考链接:
探针注释文件中没有基因名字怎么办?(二)