TCGA数据分析全基因组/外显子组测序分析TCGA_CNV

TCGA 拷贝数变异(CNV)分析

2019-12-01  本文已影响0人  上校的猫

背景

查看某些基因在特定癌症里是不是发生了拷贝数变异。

最简单的方法

直接去一些分析网站上查看,当然也有一些弊端,例如数据更新滞后,没有给出明确的分析方法和判断标准等,心中不踏实。

TCGA 基本流程和文件

拷贝数变异显著性检验

处理CNV数据的一个挑战是我们不知道某个基因或者片段的拷贝数改变是随机的还是在特定表型(癌症)中重复出现,需要一些统计方法来检验显著性,当然样本越多越好。如果感兴趣可以查看相关的文章:

总结下,分别使用了RAIG、GAIA、GISTIC2、Fisher exact test 方法,大概只有第四种最简单了吧。。但好像也是依赖于GISTIC处理的。

我们就使用TCGA官方使用的GISTIC2.0 软件吧,虽然官方也用这个软件做了处理给出了我们一个阉割版的focal_data_by_genes.txt 文件,GISTIC2结果文件是很多的,在使用 R包 **vaftools **进行作图的时候需要多个结果文件作为输入。

GISTIC2使用

我没有下载安装这个软件,所以不介绍安装方法。但是有更好的解决方法,在 Genepattern(https://cloud.genepattern.org/) 云分析平台中有GISTIC2模块,可以直接注册使用,缺点是上传数据有点慢。详细使用方法请查看 ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTICDocumentation_standalone.htm

image.png

输入文件需要:

library(dplyr)
library(TCGAbiolinks)
query <- GDCquery(project = "TCGA-STAD", 
                  data.category = "Copy Number Variation", 
                  data.type = "Masked Copy Number Segment")

GDCdownload(query, method = "api", files.per.chunk = 100)
segment_dat <- GDCprepare(query = query)

segment_dat$Sample <- substring(segment_dat$Sample,1,16)
segment_dat <- grep("01A$",segment_dat$Sample) %>% 
  segment_dat[.,]
segment_dat[,1] <- segment_dat$Sample
segment_dat <- segment_dat[,-7]

write.table(segment_dat,"MaskedCopyNumberSegment.txt",sep="\t",
            quote = F,col.names = F,row.names = F)

来自TCGA官方的参数:

gistic2
-b <base_directory>
-seg <segmentation_file>
-mk <marker_file>
-refgene <reference_gene_file>
-ta 0.1
-armpeel 1
-brlen 0.7
-cap 1.5
-conf 0.99
-td 0.1
-genegistic 1
-gcm extreme
-js 4
-maxseg 2000
-qvt 0.25
-rx 0
-savegene 1
(-broad 1)

输出文件:

del_qplot.png
all_data_by_genes.txt
focal_data_by_genes.txt
all_lesions.conf_95.txt
gistic_inputs.mat
all_thresholded.by_genes.txt
raw_copy_number.pdf
amp_genes.conf_95.txt
raw_copy_number.png
amp_qplot.pdf
regions_track.conf_95.bed
amp_qplot.png
sample_cutoffs.txt
broad_data_by_genes.txt
sample_seg_counts.txt
del_genes.conf_95.txt
scores.gistic
del_qplot.pdf

结果文件作为 maftool 包输入,根据需要可以做多个图,如下

当然你也可以根据自己需要使用RCircos包可视化等。

上一篇 下一篇

猜你喜欢

热点阅读