生物信息学R语言源码突变TCGA

TCGA突变数据挖掘:把样本整理为突变型或野生型

2019-11-29  本文已影响0人  mayoneday

一从TCGA下载突变信息

这里下载的是maf文件

rm(list=ls())
options(stringsAsFactors = F) 
library(maftools)

# 下载maf文件记录的突变信息。
if(F){
  
  # TCGAmutations包整合了TCGA中全部样本的maf文件
  # devtools::install_github(repo = "PoisonAlien/TCGAmutations")
  library(TCGAmutations)
  tcga_available() #查看可用的数据
  # 载入TCGA-BRCA maf文件
  # Blacklist used for this analysis: pancan_mutation_blacklist.v14.hg19.txt
  tcga_load(study = "GBM") # 默认加载经过校正后的MC3 maf文件,选取自己需要的肿瘤
  tcga_mc3=tcga_gbm_mc3
  save(tcga_mc3, file = "TCGA_GBM_MC3_maf.Rdata")
}

二把样本根据是否突变分为野生型和突变型

rm(list=ls())
options(stringsAsFactors = F) 
library(maftools) 
load( file = "TCGA_DLBC_MC3_maf.Rdata")

d1 <- as.data.frame(tcga_mc3@data)
d1.png
d1.png

可以看到包含了突变基因和对应的样本

d2<-d1[,c("Hugo_Symbol","Tumor_Sample_Barcode")]
class(d2)
a<-as.data.frame(table(d2$Tumor_Sample_Barcode))
a<-as.character(a[,1])

d3<-matrix(rnorm(4803*37),nrow=4803)
d3<-as.data.frame(d3)
colnames(d3)<-a
d3[,38]<-d2[,1]
for(i in 1:37){
for(j in 1:nrow(d2)){
  d3[j,i]<- ifelse(d2[j,2]==a[i],"mutation","wild")
}
}#通过循环得到野生型和突变型
d3<-d3[!duplicated(d3[,38]), ] #删去重复的基因
rownames(d3)<-d3[,38]#把行变为基因名
d3<-d3[,-38]
image.png

最后

感谢jimmy的生信技能树团队!

感谢导师岑洪老师!

感谢健明、孙小洁等生信技能树团队的老师一路以来的指导和鼓励!

上一篇下一篇

猜你喜欢

热点阅读