TCGA数据分析全基因组/外显子组测序分析

CNV分析学习笔记

2020-03-18  本文已影响0人  珠江肿瘤

引言:

CNV分析是多组学分析中重要的一环。可以基于CNV进行聚类分析,从而探究某些特定CNV与临床特征的关联(如肿瘤样本的组织学、预后特征等),也可以将CNV聚类结果与mRNA、甲基化、蛋白质表达、基因突变等聚类结果进行整合以探究CNV聚类与其他聚类的整合特征。所以,今天就和小编一起来学学CNV相关知识,涉及基础概念、CNV分析需要的重要文件、CNV结果分析以及部分绘图知识。

一、基础概念

1.拷贝数变异的定义

CNV(copy-number variant)是指拷贝数目变异,也称拷贝数目多态性(copy-number polymorphism,CNP),是一个大小介于1kb至3MB的DNA片段的变异,在人类及动植物基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性(SNP)的总数,极大地丰富了基因组遗传变异的多样性。按照CNV是否致病可分为致病性CNV非致病性CNV不明临床意义CNV

2.拷贝数变异的测定

拷贝数变异情况可以由SNP6.0比较基因组杂交芯片得到,也可以由WES测序得到,WGS测序会更好.不过选择什么样的实用技术,往往受限于资金和设备。TCGA里面主要是通过Affymetrix SNP6.0 array这款芯片来测拷贝数变异。

3.GISTIC学习参考文献

1.Beroukhim, R., Getz, G., Nghiemphu, L., Barretina, J., Hsueh, T., Linhart, D., Vivanco, I., Lee, J. C., Huang, J. H., and Alexander, S., et al. (2007). Assessing the significance of chromosomal aberrations in cancer: methodology and application to glioma. P NATL ACAD SCI USA 104, 20007-20012.

2.Mermel, C. H., Schumacher, S. E., Hill, B., Meyerson, M. L., Beroukhim, R., and Getz, G. (2011). GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. GENOME BIOL 12, R41. image

fig 1:展示GISTIC 1.0 与 GISTIC 2.0中CNV变异分析的差异。如G分数的计算方法。

fig 2a-2b:展示不同长度染色体片段的CNV情况;

fig 2c:GISTIC 2.0可通过计算机算法将所有CNV分类为arm-level 和focal SCNVs.

fig 3:展示设置不同阈值后会得到略微有差别的CNV分析结果

二、CNV分析需要的重要文件

1. Segment file:包含染色体片段信息的文件

2. score.gistic文件:gistic算法处理得到的含G分数和q值的文件

例如(官网提供的score.gistic文件示例)

对不同列的解释:

三、绘制CNV图谱(做图)

画copy number profile需要 gistic score染色体信息,其中gistic score可以用GISTIC 2.0计算(输入segment file)。

1) 获得感兴趣亚型的gistic scores:下载全部样本的segment file,然后按subtype分开(由自己定义),用GISTIC 2.0计算gistic scores,然后用算出的gistic scores来画图。

    library(TCGAbiolinks)

gistic2.0分析中需要上传的文件及相关参数设置:

①参考基因组文件(必选项):下拉菜单中可选(包含基因位置,该数据不依赖平台探针标志文件而展示基因位置信息);

②Seg file(必选项): 包含染色体片段数据的文件;

③Markers file:标记文件,包含探针名和探针位置(基于探针名和平台信息识别CNVs)。marker file包括3列:

④Maxspace:设置maxspace生成伪标记(pseudo-markers),而不是创建标记文件(markers file)。参数定义了以碱基(bases)为单位的伪标记之间允许的最大间隔。包含少于此标记数的段(segment)将连接到拷贝数最接近的相邻段。设置“标记文件”时,将忽略“ maxspace”。如果两者均未设置,则生成伪标记的maxspace为10,000(系统默认10000)。

⑤Cnv file:指定种系CNV区域(或其他高度变异的)以从显著性分析中排除。有两种方式:基于标记文件(latform-specific)和基于基因位置( genome-build dependent)。

2)准备染色体信息:

基于"BSgenome.Hsapiens.UCSC.hg19"包(Full genome sequences for Homo sapiens (Human) as provided by UCSC (hg38, Dec. 2013) and stored in Biostrings objects.)准备染色体信息。需要根据每条染色体的长度,将所有染色体绘制在同一坐标轴上。

3) 绘图:绘制全部样本的gistic score和percentage/frequency图谱。

结语:同样的方法可以用于绘制任意感兴趣亚型之间对比的gistic score和percentage/frequency,例如感兴趣的亚型CDKN1A-mutation和CDKN1A-wildtype。学习到这里,相信大家应该能够看懂文献中常见的一些CNV分析结果了。如果想要完全重现文献中的结果图,我们还要继续掌握数据处理和绘图的细节,一起冲鸭~~~

上一篇 下一篇

猜你喜欢

热点阅读