生信分析

【R>>探针ID转换】GB_ACC2SYMBOL

2021-09-01  本文已影响0人  高大石头

在处理E-MTAB-1980数据时,发现探针信息是以NM_和NR_开头的,这可怎么办呢?


搜索万能的度娘,发现这是属于GB_ACC的名称,那么怎么转换呢?
这时候发现一个帖子,探针注释文件中没有基因名字怎么办?(二)
核心知识点:GB_ACC和symbol的对应关系。
UCSC上有这样对应关系的数据:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

下载refGene.txt.gz文件,接下来就可以愉快的用R玩耍了。

1.E-MTAB-1980表达矩阵

rm(list = ls())
refgene <- data.table::fread("refGene.txt",data.table = F) %>% 
  select(2,13)
names(refgene) <- c("acc","symbol")
refgene <- unique(refgene)

eset <- data.table::fread("ccRCC_exp_log_quantile_normalized.txt",data.table = F) %>% 
  select(-c(1:2))
names(eset)[1] <- "acc"

#  ID转换
eset1 <- refgene %>% 
  inner_join(eset,by="acc") %>% 
  select(-1) %>% 
  mutate(rowMean=rowMeans(.[,-1])) %>% 
  arrange(desc(rowMean)) %>% 
  distinct(symbol,.keep_all = T)

2.E-MTAB-1980临床数据

E-MTAB-1980的临床数据(包括OS)的数据藏的比较深,在下面这篇文章的supplementary Table1


# 临床信息
time <- data.table::fread("clinical-E-MTAB-1980.txt",data.table = F)

最后整合共有的样本,共得到101个临床样本。

3.实战

下面搜索使用E-MTAB-1980数据的文章:



至此,E-MTAB-1980的数据整理完毕,这样ccRCC的验证集有多了一个。

参考链接:
探针注释文件中没有基因名字怎么办?(二)

上一篇下一篇

猜你喜欢

热点阅读