生信学习笔记

TCGA数据分析(3)

2019-09-28  本文已影响0人  dming1024

由于下载的TCGA数据,都是独立文件夹。即每个样本,一个文件夹,文件夹下是压缩数据,还需要将所有的数据进行解压,然后将所有的数据进行合并,并提取分组信息,再进行后续的分析。

a.将所有的文件移动到all文件夹下

#获取当前目录
getwd()
#新建文件夹all,将所有样本文件夹中的压缩数据移动到all文件夹下
dir.create('all')
i<-list.dirs()
m=i[2:(length(i)-1)]
for(n in m){  
 x.path=paste(n,list.files(n),sep='/')
 file.copy(x.path,'./all',recursive = T)
}

b. 手动解压文件到unzip文件夹下
c. 合并所有的count文件成x_merge文件

#设置为解压后的文件路径
setwd("C://Users//dongl//Desktop//tcga//stomach//unzip")
#定义空变量
x_merge=NULL
i<-list.files()
#merge所有的文件为x_merge
for(n in i){
   x=read.delim(n,col.names = c('ID',substr(n,1,9)))
   if(is.null(x_merge)){
   x_merge=x
  }
  else{x_merge=merge(x_merge,x,by='ID')
  }  
}

d.基因名转换成行名

#基因转换成行名
rownames(x_merge)<-x_merge$ID
x_reduce=x_merge[-(1:5),]
x_reduce=x_reduce[,-1]
rownames(x_reduce)=x_merge$ID[-c(1:5)]

> head(x_reduce,10)[,1:3]
                   X0097539b. X01411772. X01ed42c5.
ENSG00000000005.5           0          4          7
ENSG00000000419.11       1304       5219       3533
ENSG00000000457.12        370       1409        892
ENSG00000000460.15        452       1850        710
ENSG00000000938.11        335        442        333
ENSG00000000971.14       1126       3818       1009
ENSG00000001036.12       3221       2863       4315
ENSG00000001084.9        1469       3106       2275
ENSG00000001167.13       1380       5304       4202
ENSG00000001460.16        459        785        357

转自“医学统计园”

上一篇下一篇

猜你喜欢

热点阅读