WisecondorX 拷贝数变异检测 NGS NIPT
背景
低深度全基因组测序(sWGS),主要通过覆盖深度的方法(DOC)检测CNV。
DOC工具主要包含三个分析步骤:data normalization, segmentation and aberration calling。data normalization 是获得可靠分析结果的基础,不进行normalization,拷贝数变化的分析会受到 GC content, mappability, polymorphisms, sample quality, false computational assumptions的影响。
DOC工具将基因组划分成很多窗口
所有基于覆盖度的CNA工具都是从统计特定位点的reads数量开始的。通常情况下这些数字可以被理解为拷贝数变化的度量。因为sWGS无法完全覆盖整个基因组,所以会把参考基因组划分为大的windows 或 bins 以展现全基因组覆盖的特征。
所以对于bins大小的考量很重要,bins越大则reads数量越多,输出结果中的噪音就越小。然而较大的bins会降低检测的分辨率。由于reads数量符合二项分布,通过bins size和覆盖范围,可以计算出高斯噪音的水平。合适的bins size应该根据测序深度选择。
Normalization techniques
标准化的方法可以分为三大类:
- 收集一组相同实验流程的健康人样本。来自这组样本的bins可以作为正常的二倍体对照,以用于标准化。主要的缺点是要用到相当多的正常参考品;
- 无参法,通过人类参考基因组的 GC contetnt、mappablility来标准化,但是性能一般较差;
- 使用肿瘤和阴性对照法,可以正确区分出肿瘤特异性的突变。但是一个患者多个样本会有很多问题。
接下介绍主流工具使用的标准化方法
无参标准化方法
- FREEC 对 bin-wise read count 和 GC content 进行多项式拟合,接着 mappability 信息用于过滤或者额外的标准化;
- QDNAseq 使用loess fit 来同时校正 GC content 和 mappability bias;
- BIC-seq2 认为 bins size 是标准化中一个特别重要的参数。
有参标准化
- cn.MPOS,使用混合泊松分布。对每个位点使用单独生成的概率模型。
- CNVkit,直接使用正常样本集合标准化对应的bins。除此之外,也使用了一些基本的样本内部标准化方法,可以有效消除样本自身的质量问题。使用 rolling median technique 来标准化content, repetitiveness and target density(对于WGS没影响)相似的区域。
- WISECONDOR 有效解决了样本间的差异问题。参考样本数据不但直接用于bins 标准化(PCA),而且还确定了样本内部的bins参考对应。
黑名单过滤无信息位点
人类基因组中存在大量充满问题的重复区,如微卫星、中心粒、端粒会妨碍短序列比对的正确性。这些位点会使得数据标准化变得非常复杂。所以基本所有CNA软件都有一个黑名单来过滤这些区域。无参方法会预先设定一个列表而其它方法则会从参考样本中得出。
分割和异常检测
经过标准化和黑名单处理得到的基因图谱,被分割成不同区段。在每个区段里位点的拷贝数是相同的。理想情况下,对于常染色每个染色体在二倍体水平下形成一个区域,除非出现亚染色体水平的异常。接受度最高的分割方法是circular binary segmentation(CBS)。最后,通过统计学方法找出和参考有明显差异的区段。
材料与方法
样本和bin size选择
100个健康样本作为参考库。测试集使用20个健康人样本和20个拷贝数异常样本。NIPT组使用100kb的 bin,因为检测的异常大小在5Mb以上
DNA分离
血液收集后24h内4℃ 1600g离心10min,分离得到血浆。血浆再4℃ 16000g 离心10min 取上清。
文库准备
5ng上样,预计最低10million reads。
Circular binary segmentation
常染色体CBS使用DNAcopy R包。参数α(检测断点的P-value)设定为。每个segment至少包含两个bins。最后连续bins的平均值作为这个segement的ratio。
median sigment variance
观测median sigment variance()作为噪音的衡量。定义为,一组sigment 对应的方差的中值。期望的median sigment variance()和 bin size , read depth 成反比。
Constitutional aberration calling
染色体异常的计算使用尺度,用观察到的拷贝数和预期拷贝数的比率表示(CN)
异常检测的边界取有1/3的拷贝数差异。这样可以取到更多的真阳性结果。
结果
使用黑名单获得无偏差reads比率
噪音和标准化
测序深度对方差影响较大。除了覆盖度,标准化算法可能会忽视主要的偏差来源,导致对健康样本的整体平坦度,正态性和有限的噪声轮廓产生负面影响。样本总体平坦度和正态性可以分别通过profile-wide variance 和 Lilliefors normality test检测。两个值越小越好。
WISECONDOR's limitations
对性染色体的拷贝数检测效果不佳。WISECONDOR 使用 Stouffer’s z-score sliding window 的方法进行segment 并检测拷贝数异常。当bins size 很小时(15kb 运行了24h)这种算法运行很慢,而且当染色体有大量异常时会出错。尤其异常片段内的异常无法检测出来。
WisecondorX
改进版的程序使用相同的标准化方法,其它的改进如下:
-
性染色体检测:在参考品准备时,使用Y染色体片段,在高斯混合模型下训练数据,将男性和女性样本区分开。所有样本都使用以产生的常染色体参考,不同的性别组用于产生性染色体参考。当时,检测一个新样本时,会自动预测性别,并选择正确的参考。
-
Segmentation:使用CBS算法替代 Stouffer’s z-score sliding window。能够提高运行速度和检测效果。用参考集中的突变信息对CBS和区段z-score进行权重分析,通过这个方法可以对不太精确的bins 降低权值。
-
Bin-wise,segmentalandchromosomalz-scores.: 在任意位点发生的变化,无关与大小,z-score的计算可以用下面的方程计算。
公式表示bins 从n 到m所组成的segment的z-score。利用参考构建时bins的差异程度得到的权重值来计数bins的均值。计算一般的均值和标准差。代表所检测样本在bins n处的reads ratio。表示参考集中第二例样本在同一位点的reads ratio,总共有p个健康参考样本。
-
异常检测: 尽管可以计算z-scores ,用户也能自定义阈值,使用 ratios。诊断学的一个关键原则进一步支持这一方法:如果观察到与健康状态有微小偏差,就应该进行研究,而不考虑其统计意义。
讨论
低深度全基因组测序已经成为拷贝数变异检测(>10kb)的选择之一。和大多数其它的工具不同,WisecondorX并不是单纯基因统计学的过程来检测异常。文章认为,只有匹配到特定的分析类型时,这些操作得到的结论才是可靠的。
统计学的方法要适应检测的场景:对于NIPT,我们预计没有或者一个波动很小的偏差,算法需要把这种偏差检测出来;但是这种方式不能用于高度突变的肿瘤样本。此外,如果我们对本身存在的染色体异常感兴趣,对于NIPT,我们就需要检测到比胎儿DNA比例更高的变异幅度,而这种场景的变换是统计学无法优化的。最后要注意的是,在诊断背景下,显著性水平似乎不那么重要:一个可能的变异仍然应该被报告,即使没有达到用户定义的显著性水平。