TCGA突变数据挖掘:把样本整理为突变型或野生型
2019-11-29 本文已影响0人
mayoneday
一从TCGA下载突变信息
这里下载的是maf文件
rm(list=ls())
options(stringsAsFactors = F)
library(maftools)
# 下载maf文件记录的突变信息。
if(F){
# TCGAmutations包整合了TCGA中全部样本的maf文件
# devtools::install_github(repo = "PoisonAlien/TCGAmutations")
library(TCGAmutations)
tcga_available() #查看可用的数据
# 载入TCGA-BRCA maf文件
# Blacklist used for this analysis: pancan_mutation_blacklist.v14.hg19.txt
tcga_load(study = "GBM") # 默认加载经过校正后的MC3 maf文件,选取自己需要的肿瘤
tcga_mc3=tcga_gbm_mc3
save(tcga_mc3, file = "TCGA_GBM_MC3_maf.Rdata")
}
二把样本根据是否突变分为野生型和突变型
rm(list=ls())
options(stringsAsFactors = F)
library(maftools)
load( file = "TCGA_DLBC_MC3_maf.Rdata")
d1 <- as.data.frame(tcga_mc3@data)
d1.png
d1.png
可以看到包含了突变基因和对应的样本
d2<-d1[,c("Hugo_Symbol","Tumor_Sample_Barcode")]
class(d2)
a<-as.data.frame(table(d2$Tumor_Sample_Barcode))
a<-as.character(a[,1])
d3<-matrix(rnorm(4803*37),nrow=4803)
d3<-as.data.frame(d3)
colnames(d3)<-a
d3[,38]<-d2[,1]
for(i in 1:37){
for(j in 1:nrow(d2)){
d3[j,i]<- ifelse(d2[j,2]==a[i],"mutation","wild")
}
}#通过循环得到野生型和突变型
d3<-d3[!duplicated(d3[,38]), ] #删去重复的基因
rownames(d3)<-d3[,38]#把行变为基因名
d3<-d3[,-38]
image.png