TCGA数据分析(3)
2019-09-28 本文已影响0人
dming1024
由于下载的TCGA数据,都是独立文件夹。即每个样本,一个文件夹,文件夹下是压缩数据,还需要将所有的数据进行解压,然后将所有的数据进行合并,并提取分组信息,再进行后续的分析。
a.将所有的文件移动到all文件夹下
#获取当前目录
getwd()
#新建文件夹all,将所有样本文件夹中的压缩数据移动到all文件夹下
dir.create('all')
i<-list.dirs()
m=i[2:(length(i)-1)]
for(n in m){
x.path=paste(n,list.files(n),sep='/')
file.copy(x.path,'./all',recursive = T)
}
b. 手动解压文件到unzip文件夹下
c. 合并所有的count文件成x_merge文件
#设置为解压后的文件路径
setwd("C://Users//dongl//Desktop//tcga//stomach//unzip")
#定义空变量
x_merge=NULL
i<-list.files()
#merge所有的文件为x_merge
for(n in i){
x=read.delim(n,col.names = c('ID',substr(n,1,9)))
if(is.null(x_merge)){
x_merge=x
}
else{x_merge=merge(x_merge,x,by='ID')
}
}
d.基因名转换成行名
#基因转换成行名
rownames(x_merge)<-x_merge$ID
x_reduce=x_merge[-(1:5),]
x_reduce=x_reduce[,-1]
rownames(x_reduce)=x_merge$ID[-c(1:5)]
> head(x_reduce,10)[,1:3]
X0097539b. X01411772. X01ed42c5.
ENSG00000000005.5 0 4 7
ENSG00000000419.11 1304 5219 3533
ENSG00000000457.12 370 1409 892
ENSG00000000460.15 452 1850 710
ENSG00000000938.11 335 442 333
ENSG00000000971.14 1126 3818 1009
ENSG00000001036.12 3221 2863 4315
ENSG00000001084.9 1469 3106 2275
ENSG00000001167.13 1380 5304 4202
ENSG00000001460.16 459 785 357
转自“医学统计园”