TCGA数据库copy number variation数据分析

2020-10-08 本文已影响0人生信start_site

在上一篇笔记里，学习了利用maftools分析TCGA数据库里的simple nucleotide variation数据，现在来学习一下copy number variation数据的分析。不同于snv数据的是，cnv的数据从TCGA下载后需要一些数据的预处理、以及下载其他的一些必需文件。这篇笔记就是记录从文件下载、数据预处理、以及使用GISTIC在线软件生成maftools的输入文件。

（一）下载并整理TCGA的CNV数据

这里使用TCGAbiolinks包下载cnv数据：

> library(TCGAbiolinks)
#下载临床信息
> cancer_type <- "TCGA-HNSC"
> clinical <- GDCquery_clinic(project= cancer_type,type = "clinical")
> library(SummarizedExperiment)
#下载cnv数据的seg文件
> data_type <- "Masked Copy Number Segment"#选择数据类型
> data_category <- "Copy Number Variation" #选择数据类别
> workflow_type <- "DNAcopy"
> query_hnsc_cnv <- GDCquery(project = cancer_type, 
                                        data.category = data_category, 
                                        data.type =  data_type, 
                                        workflow.type = workflow_type)
> GDCdownload(query_hnsc_cnv, method = "api")
#保存
> CNV_files <- GDCprepare(query = query_hnsc_cnv,save = TRUE, save.filename = "CNV_TCGA_HNSC.rda")

上面data_type选择“Masked”版本，是否是masked的区别请见文章CNV拷贝数变异分析（GISTIC、maftools），masked版本是去掉了gemline里已知的mutations。因为我们想研究的是肿瘤样品里特异的copy number，所以体细胞里已经包含的就不需要了。

现在这个seg文件是一个7列173575行的表，需要把这个表的列重新排列一下，把第一列删掉，然后把sample放到第一列

#读取数据并重新排列
> cnv <- load("D:/yanfang/TCGA_maf/CNV_TCGA_HNSC.rda")
> hnsc_seg <- eval(parse(text = cnv))
> hnsc_seg <- hnsc_seg[,-1]
> hnsc_seg <- hnsc_seg[,c('Sample','Chromosome','Start','End','Num_Probes','Segment_Mean')]

整理完是这样的

提取肿瘤样品（sample列里第14,15位是01的样品）：

> tumor_seg <- hnsc_seg[substr(hnsc_seg$Sample,14,15) == "01",]

（二）Marker文件的下载以及格式格式调整

运行GISTIC除了上面我们已经整理好的seg文件，还需要marker file。

Markers File数据下载：
在TCGA官网下载，地址：(https://gdc.cancer.gov/about-data/gdc-data-processing/gdc-reference-files

选择：

下载后，在R里读取：

> hg_marker_file <- read.delim("snp6.na35.remap.hg38.subset.txt.gz")
> View(hg_marker_file)

NOTE：如果上面你下载的seg文件是masked版本的，要提取marker文件里freqcnv=FALSE的行。

> hg_marker_file <- hg_marker_file[hg_marker_file$freqcnv =="FALSE",]

另外根据GenePattern官网的说明，marker file只需要3列（官网）：

所以把上面的marker文件取前三列：

> hg_marker_file <- hg_marker_file[,c(1,2,3)]
> write.table(hg_marker_file,"hg_marker_file.txt",sep = "\t",col.names = TRUE,row.names = F)

（三）运行GISTIC（online版）

拿到了seg文件和marker file文件，就可以用GISTIC软件分析了。GISTIC可以下载到你的电脑使用，也可以在线分析。这里我只使用在线软件进行分析，安装的方法可以参考：用GISTIC多个segment文件来找SCNA变异，安装过程还需要配置matlab环境，比较麻烦，我这么懒就直接使用在线的分析了。

使用的在线平台是GenePattern，这是一个非常强大的应用平台，需要用邮箱注册账号，注册的过程也非常快，2分钟内搞定。GenePattern平台里包含了150多个工具，可以进行基因表达分析、蛋白质组分析、SNP分析、流式细胞分析、RNA-seq分析等等。

GenePatter网站：https://cloud.genepattern.org/gp/pages/index.jsf

打开以后是这样的：