TCGA肿瘤数据预处理与分组
2021-04-05 本文已影响0人
萍智医信
inputFile="tcgaRBPexp.txt"
library(limma)
library(stringr)
#读取输入文件,并对输入文件整理,多个基因取平均为一个基因表达
rt=read.table(inputFile,sep="\t",header=T,check.names=F)
rt=as.matrix(rt)
rownames(rt)=rt[,1]
exp=rt[,2:ncol(rt)]
dimnames=list(rownames(exp),colnames(exp))
data=matrix(as.numeric(as.matrix(exp)),nrow=nrow(exp),dimnames=dimnames)
data=avereps(data)
data=data[rowMeans(data)>0,]
#根据样本ID的第14-15位,给样本分组(tumor和normal)
data<-t(data)
table(str_sub(rownames(data),14,15))
group_list <-ifelse(as.numeric(str_sub(rownames(data),14,15)) < 10,'tumor','normal')
table(group_list)
cc<-cbind(data,group_list)
write.csv(cc,file = "添加正常和肿瘤分组后.csv")