基因组学

WisecondorX 拷贝数变异检测 NGS NIPT

2021-03-01  本文已影响0人  茄子_0937

背景

低深度全基因组测序(sWGS),主要通过覆盖深度的方法(DOC)检测CNV。

DOC工具主要包含三个分析步骤:data normalization, segmentation and aberration calling。data normalization 是获得可靠分析结果的基础,不进行normalization,拷贝数变化的分析会受到 GC content, mappability, polymorphisms, sample quality, false computational assumptions的影响。

DOC工具将基因组划分成很多窗口

所有基于覆盖度的CNA工具都是从统计特定位点的reads数量开始的。通常情况下这些数字可以被理解为拷贝数变化的度量。因为sWGS无法完全覆盖整个基因组,所以会把参考基因组划分为大的windows 或 bins 以展现全基因组覆盖的特征。

所以对于bins大小的考量很重要,bins越大则reads数量越多,输出结果中的噪音就越小。然而较大的bins会降低检测的分辨率。由于reads数量符合二项分布,通过bins size和覆盖范围,可以计算出高斯噪音的水平。合适的bins size应该根据测序深度选择。

Normalization techniques

标准化的方法可以分为三大类:

接下介绍主流工具使用的标准化方法

无参标准化方法

有参标准化

黑名单过滤无信息位点

人类基因组中存在大量充满问题的重复区,如微卫星、中心粒、端粒会妨碍短序列比对的正确性。这些位点会使得数据标准化变得非常复杂。所以基本所有CNA软件都有一个黑名单来过滤这些区域。无参方法会预先设定一个列表而其它方法则会从参考样本中得出。

分割和异常检测

经过标准化和黑名单处理得到的基因图谱,被分割成不同区段。在每个区段里位点的拷贝数是相同的。理想情况下,对于常染色每个染色体在二倍体水平下形成一个区域,除非出现亚染色体水平的异常。接受度最高的分割方法是circular binary segmentation(CBS)。最后,通过统计学方法找出和参考有明显差异的区段。

材料与方法

样本和bin size选择

100个健康样本作为参考库。测试集使用20个健康人样本和20个拷贝数异常样本。NIPT组使用100kb的 bin,因为检测的异常大小在5Mb以上

DNA分离

血液收集后24h内4℃ 1600g离心10min,分离得到血浆。血浆再4℃ 16000g 离心10min 取上清。

文库准备

5ng上样,预计最低10million reads。

Circular binary segmentation

常染色体CBS使用DNAcopy R包。参数α(检测断点的P-value)设定为1e^{-5}。每个segment至少包含两个bins。最后连续bins的平均值作为这个segement的ratio。

median sigment variance

观测median sigment variance(MSV_o)作为噪音的衡量。定义为,一组sigment 对应的方差的中值。期望的median sigment variance(MSV_e)和 bin size , read depth 成反比。

MSV_o\approx MSV_e\sim \frac{1}{read \ \ depth\ \ *\ \ bin\ \ size}

Constitutional aberration calling

染色体异常的计算使用log_2尺度,用观察到的拷贝数和预期拷贝数的比率表示(CN)

Deletion = log_2(\frac {obs\ \ CN} {exp\ \ CN})=log_2(\frac{1}{2})=-1

Duplication=log_2(\frac{obs\ \ CN}{exp\ \ CN})=log_2(\frac{3}{2}) \approx 0.58

异常检测的边界取有1/3的拷贝数差异。这样可以取到更多的真阳性结果。

Deletion \ \ cutoff=log_2(\frac{2-1/3}{2})\approx-0.26

Gain \ \ cutoff=log_2(\frac{2+1/3}{2})\approx 0.22

结果

使用黑名单获得无偏差reads比率

噪音和标准化

测序深度对方差影响较大。除了覆盖度,标准化算法可能会忽视主要的偏差来源,导致对健康样本的整体平坦度,正态性和有限的噪声轮廓产生负面影响。样本总体平坦度和正态性可以分别通过profile-wide variance 和 Lilliefors normality test检测。两个值越小越好。

WISECONDOR's limitations

对性染色体的拷贝数检测效果不佳。WISECONDOR 使用 Stouffer’s z-score sliding window 的方法进行segment 并检测拷贝数异常。当bins size 很小时(15kb 运行了24h)这种算法运行很慢,而且当染色体有大量异常时会出错。尤其异常片段内的异常无法检测出来。

WisecondorX

改进版的程序使用相同的标准化方法,其它的改进如下:

讨论

低深度全基因组测序已经成为拷贝数变异检测(>10kb)的选择之一。和大多数其它的工具不同,WisecondorX并不是单纯基因统计学的过程来检测异常。文章认为,只有匹配到特定的分析类型时,这些操作得到的结论才是可靠的。

统计学的方法要适应检测的场景:对于NIPT,我们预计没有或者一个波动很小的偏差,算法需要把这种偏差检测出来;但是这种方式不能用于高度突变的肿瘤样本。此外,如果我们对本身存在的染色体异常感兴趣,对于NIPT,我们就需要检测到比胎儿DNA比例更高的变异幅度,而这种场景的变换是统计学无法优化的。最后要注意的是,在诊断背景下,显著性水平似乎不那么重要:一个可能的变异仍然应该被报告,即使没有达到用户定义的显著性水平。

上一篇下一篇

猜你喜欢

热点阅读