【R>>配对样本】提取TCGA中的配对样本
2021-06-18 本文已影响0人
高大石头
肿瘤研究中,常常需要关注癌和癌旁组织,这个时候就需要找出这些配对样本。下面就来实战吧!
1.下载counts数据转为TPM
counts转TPM教程:【R>>IOBR】counts转TPM
rm(list = ls())
library(IOBR)
tcga_eset <- data.table::fread("HTSeq_Counts_PRAD.txt",data.table = F) %>%
mutate(Tags=str_sub(Tags,1,15)) %>%
column_to_rownames("Tags")
tcga_tpm <- count2tpm(countMat = tcga_eset,
idType = "Ensembl",
source = "default")
2.分别提取normal和tumor
exp_nor <- tcga_tpm[,str_sub(colnames(tcga_tpm),14,15)=="11"]
exp_tum <- tcga_tpm[,str_sub(colnames(tcga_tpm),14,15)=="01"]
patient <- str_sub(colnames(exp_nor),1,12)
k <- str_sub(colnames(exp_tum),1,12) %in% patient;table(k)
神奇的事情发生了,癌旁有52个,但配对的有54个。
原来是有重复测的样本,将它去掉就好喽。
3.去重+合并
exp_tum <- exp_tum[,!str_detect(colnames(exp_tum),"Rep")]
exp2 <- cbind(exp_nor,exp_tum)
exp2 <- log2(exp2+1)
index <- paste(patient,"01",sep = "-")
exp2 <- exp2[,c(colnames(exp_nor),index)] #保证配对顺序
参考链接:
从TCGA表达矩阵里拆出配对样本