TCGA数据分析(4)
2019-09-28 本文已影响0人
dming1024
TCGA数据分析 (1) : 如何从TCGA下载数据
TCGA数据分析 (2):如何从TCGA检索数据
TCGA数据分析 (3):RNA-seq表达数据预处理
这次讲解如何从metadata.json中获得分组信息,如果你有perl语言基础,可以直接参考这篇教程中的脚本信息TCGA中metadata.json中注释信息的提取。这里我们以R语言为例讲解对metadata注释信息的提取过程。
#加载metada文件
x = fromJSON(file = 'metadata.cart.2019-09-20.json')
#变量初始化
n = ncol(x_reduce)
id = rep(0, n)
sample_id = rep(0, n)
#根据metadata的结构,提取注释信息
for (i in 1:n) {
id[i] = x[[i]]$submitter_id
sample_id[i] = x[[i]]$associated_entities[[1]]$entity_submitter_id
}
#一共包含两类信息:
#id与表达数据中的文件ID对应,sample_id包含分组信息
sample_matrix = data.frame(id = id, sample_id = sample_id)
#提取相应的字符串,构建样本信息表
sample_info = data.frame(id = substr(id, 1, 9), sample_id = substr(sample_id, 1, 15))
sample_info = sample_info[order(sample_info$id),]
colnames(x_reduce) = sample_info$sample_id
就这么简单完成了对metadata信息中注释信息的提取。可以看下完成后的sample_info是个什么亚子的data.frame
head(sample_info)
id sample_id
370 0097539b- TCGA-BR-7707-01
18 01411772- TCGA-VQ-A8E2-01
26 01ed42c5- TCGA-HU-8249-01
112 01f7a9ce- TCGA-BR-8678-01
304 024d6c1e- TCGA-BR-8588-01
142 0280b3ee- TCGA-BR-6455-01
样本的分组信息就在sample_id列,这里你需要了解一下TCGA样本的命名规则:以第一行为例,TCGA就是项目名称,BR是指组织来源,7707是参与者编号,01~ 09表示肿瘤组织,10~19则为非肿瘤组织或正常组织。所以我们只需要TCGA样本编号中的14-15的编号就可以进行分组了。