高性能变异检测软件UVC
1 摘要
二代测序应用于临床常常需要精确地检测变异,这篇文章描述了能精确检测 germline 和 somatic 微小突变的 UVC软件。通过统一相反假设,文章发现了改善变异检测性能的两个规律:(1)在高测序深度下,等位基因频率与变异检测错误率的立方根成反比;(2)使用贝叶斯因子校正比值比可以模拟各种测序误差;UVC在GIAB germline真值集、192个混合突变集(不同tumor/normal测序深度和肿瘤纯度)上的表现要优于其他变异检测软件。其中,GIAB somatic 真值集来自于物理混合数据,SEQC2 somatic参考基因集来自于乳腺癌细胞系 HCC1395。在16名结肠腺癌患者Qiagen 71基因panel的突变测试数据上,UVC软件与多名独立研究者人工审核的一致性达到了100%。UVC软件在公开数据集上的表现优于单一UMI突变检测软件。在之前公开发表的UMI测序数据上,UVC软件提升了检测性能,这为DNA损伤修复突变研究提供了支持。UVC软件源码地址见:https://github.com/genetronhealth/uvc
2 摘要
检测变异是一个基础问题。准确检测germline变异对于评估许多疾病的易感性、研究生物学通路至关重要。尽管目前已经开发了大量算法和软件包来检测germline变异,但仍有提升的空间。准确的检测somatic变异对癌症的诊断、预后和治疗检测至关重要。基于NGS的不同变异软件通常被用于检测不同肿瘤类型的等位基因变异。但是,变异软件检测的准确性受到NGS实验中各种偏差和错误的影响。在科学研究中,我们关注的是患者整体得出的结论,偶尔影响某些样本的变异检测软件等技术问题可以通过样本量来减轻。但是,在临床环境中,我们关注的是每个特定患者的突变,变异检测这个议题变得越发重要。变异检测的优化方法包括过滤假阳性变异,但是这种方法无法拯救假阴性变异。而且,手动优化变异检测的方法,通常费事费力。
此外,一些优化的NGS文库制备技术,如分子标签UMIs和双端UMIs测序,都已经应用于临床cfDNA变异的检测。目前,UMI变异检测软件和其搭配的实验流程通常是固定搭配的,因此科研和临床领域都需要一款表现优异的通用UMI变异检测软件,用于不同UMI数据的检测。
目前大多数算法,如 HaplotypeCaller,Mutect1/Mutect2 和 Strelka1/Strelka2 通常使用等位基因频率分析和单倍性检测的方法来检测变异。所有算法都认为如果变异等位基因频率越低,越容易是一个假阳性变异,但是没有一种算法可以直接将等位基因频率转化为假阳性概率。Haplotype 检测使用 de Bruijn-like 图进行局部组装reads来判定是否存在多个等位基因。因此,haplotype 检测可以纠正比对的错误,但是不能纠正其他类型的NGS偏倚。因此,文章研究了等位基因频率和假阳性概率之间的关系,并建立了一个框架来模拟各种NGS 偏倚。文章最终推出了一种新的通用式的变异检测软件UVC。
UVC软件是通用性和贝叶斯因子比值比的组合。通用性是对一大类系统的性质与系统的动态细节无关的观察。这里的通用性是指文章发现,如果一个变异的覆盖深度足够高,无论变异类型和错误类型如何,等位基因频率都与变异错误率的立方根成反比。每个NGS偏倚的概率和强度分别由贝叶斯因子和比值比进行计算。如果概率高于预设的阈值(10^−4),偏倚不会减少任何reads的支持。否则,会根据偏倚的强度减少reads的支持。
UVC能够在不使用任何训练数据集的情况下,精准的检测somatic变异,包括SNVs和IndDels。UVC产生的变异质量值参数可以表示变异的可信度,其中变异质量值指的是VCF文件的QUAL列内容。因此,使用者可以简单地设定不同的变异质量值阈值进行变异过滤。UVC可以应用于UMI标签和TN配对数据的检测,当没有UMI标签和和配对Normal数据时,UVC仍能准确检测变异。因此,UVC 尽可能的利用测序数据中的信息,但对数据没有特殊的要求。最后,UVC运行速度很快,使其在临床环境中应用存在可能。
3 方法
UVC检测变异原理的见FIg 1。文章利用了将相反假设结合起来的基本思想。例如,在NGS检测中,“测序深度低”和“测序深度高”构成一对相反的假设,因为“低”和“高”是彼此的反义词。通过将这一想法应用于NGS 检测,文章获得了两个重要的结论 “可以通过使用贝叶斯因子校正比值比来模拟偏倚,降低reads支持” 和 “可以通过使用通用性来拟合三次幂定律来计算变异质量值”。
image.png
3.1 使用贝叶斯因子校正比值比来模拟偏倚降低reads支持
文章发现,组合使用第1层模型(贝叶斯因子)和第二层模型(比值比)可以模拟NGS中的各种偏倚(如位置偏倚和链偏倚)。与传统的频率统计类似,文章的模型考虑了以下两个假设:
(1)原假设:在变异候选中没有偏倚
(2)备选假设:在变异候选中存在一些偏倚
文章根据模型计算了一个原假设相对于备选假设的似然比。这个似然比被称为贝叶斯因子,类似于P值。如果贝叶斯因子超过了预设的阈值,则拒绝原假设,但不拒绝变异本身。然而,变异候选是假阳性的概率P1与似然比程正相关关系。同时,文章模型仅使用没有任何偏倚特征的reads计算变异候选是假阳性的概率P2。在默认情况下,使用无信息杰弗里先验分布(参考:https://zhuanlan.zhihu.com/p/428896725?utm_id=0)应用于所有等位基因频率的计算,用于估计候选变异为假阳性的概率。然后,将P1和P2中的最小值作为变异候选为假阳性的概率。简而言之,文章的推理模型应用了以下两条经验规则。
(1)如果测序深度较低,则我们估计变异候选具有一定偏差的可能性。如果可能性超过某个阈值,那么我们相应增加变异候选为假阳性的概率;
(2)如果测序深度足够高,那么我们假设存在一些偏差,并计算偏差的效应大小
将这两个规则应用到UVC检测中,分别实现了低覆盖深度下的高灵敏度和高覆盖深度下对系统误差的鲁棒性。
3.2 分层聚类reads
与其他变异检测软件类似,UVC 在不同水平分层聚类reads检测突变。首先,UVC将R1和R2的reads末端进行合并,形成fragments。然后,UVC通过将具有相同UMI的Fragments组成一个单链去重序列(SSCSs)。如果reads没有进行UMI标记,则确保重复fragments只计数一次。如果检测到duplex UMIs,则将SSCSs合并为duplex consensus 序列。
3.3 使用通用性来拟合三次幂定律来计算变异质量值
文章发现等位基因频率和NGS假阳之间存在以下普遍的幂定律:在高测序深度时,给定候选突变的期望变异频率 f 和 实际的变异频率 g (max(f/g,g/f)) ^3 公式与假阳性的概率近似成正比。这样,NGS 幂定律可以将每个候选变异的等位基因频率转化为假阳性概率的上限。
3.4 有配对Normal样本时
UVC 可以利用配对Normal的测序数据选择性地调整Tumor样本的变异质量值,变异质量值的调整依照以下两个条件:
(1) 当肿瘤样本和正常样本等位基因频率有统计学差异时进行奖励
(2)否则,根据tumor/normal等位基因频率比例的模型进行惩罚
4 结果
我们使用F-score和PrAUC来评估UVC的性能。F-score表示精确率(precision)和召回率(recall)的调和平均值。PrAUC相当于平均精确率,表示精确率与召回率的曲线下面积(AUC)。
4.1 使用全基因组测序和扩增子测序数据验证幂定律的通用性
首先,我们用两个数据集验证了NGS幂定律:一个是Illumina HiSeq在300X平均深度测序的HG001(或相当于NA12878)细胞系的全基因组测序(WGS)数据集,另一个是Illumina NextSeq测序的由1% HG001和99% HG002(或相当于NA24385)组成的细胞系混合物的扩增子测序数据集。
事实上,如果等位基因频率的范围在0.1和100%之间,那么变异的假阳性概率与变异的等位基因频率的三次幂成反比,并且这个范围的范围超过了Stumpf和Porter提到的两个数量级。
4.2 WGS数据集上germline变异检测评估结果
文章使用germline 变异检测软件HaplotypeCaller,Strelka2,FreeBayes 和 bcftools 与UVC软件进行了比较。检测了2个平台(NovoAlign和 MGISEQ),3个GIAB的参考样本(HG001,HG002,HG005),2种测序深度(30X和60X)。结果显示,UVC在germline SNVs上表现最好,HaplotypeCaller在germline InDels上表现最好,UVC次之。文章核查了germline InDel的检测,发现UVC有时不能确定InDel是纯合子还是杂合子,而HaplotypeCaller可以,可能是因为HaplotypeCaller采用了定位组装策略。
4.3 混合模拟WGS数据集上Tumor-only模式检测评估结果
文章使用Tumor-only模式的变异检测软件 Mutect2 和 LoFreq 与UVC软件进行了比较。检测了2个平台(NovoAlign和 MGISEQ),4种测序深度(240X、120X、48X、24X),8种肿瘤纯度(1.0, 0.75, 0.5, 0.25, 0.125, 0.0625, 0.03125 and 0.015625),2 种模拟tumor和normal 细胞系(HG001/HG002作为tumor/normal,以及HG002/HG001作为tumor/normal)。结果显示,在Tumor-only模式下检测somatic突变SNVs 和 InDels ,UVC软件总是表现最好。
4.4 混合模拟WGS数据集上Tumor-normal配对模式检测评估结果
文章使用Tumor-normal 配对模式的变异检测软件 Mutect2,Strelka2, VarScan2,LoFreq,SomaticSniper 和 LoLoPicker与UVC软件进行了比较。检测了2个平台(NovoAlign和 MGISEQ),4种测序深度(240X、120X、48X、24X),8种肿瘤纯度(1.0, 0.75, 0.5, 0.25, 0.125, 0.0625, 0.03125 and 0.015625),2 种模拟tumor和normal 细胞系(HG001/HG002作为tumor/normal,以及HG002/HG001作为tumor/normal),2个正常肿瘤污染率(TiN)分别为0.0和0.046875。除了3种受到随机效应影响的情况外,在Tumor-normal配对模式下检测somatic突变SNVs 和 InDels ,UVC软件总是表现最好。结果如表1所示。
4.4 物理混合模拟WGS数据集上Tumor-normal配对模式检测评估结果
4.5 乳腺癌细胞系HCC139 WES数据和扩增子数据上Tumor-normal配对模式检测评估结果
文章使用Tumor-normal 配对模式的变异检测软件 Mutect2,Strelka2, VarScan2,LoFreq,SomaticSniper, Lancet 和 Octopus 与UVC软件进行了比较。评估的数据集为Sequence-QualityControl Consortium (SEQC2) somatic 数据集。在Tumor-normal配对模式下检测somatic突变SNVs 和 InDels ,UVC软件总是表现最好。结果如表2所示。
4.6 结肠癌患者扩增子数据上Tumor-normal配对模式检测评估结果
文章使用UVC与appreci8软件进行了比较。appreci8 使用了机器学习的方法对8种变异检测软件的结果进行了汇总。评估的数据集为 Qiagen 71基因 结肠癌 panel的测序数据。该数据集的结果经过了人工的审核。Sandmann 表明 appreci8 的表现优于任一单一的变异检测软件。appreci8 软件最终结果有 0 个假阳性和 7 个假阴性,UVC最终结果有 0 个假阳性和 0 个假阴性,与人工审核结果 100% 一致。如图2所示:
4.7 含有UMI标签的扩增子数据上Tumor-only模式检测评估结果
为了评估UVC在UMI数据上的性能,文章使用标准品HD734和健康献血者血液的物理混合物(以1:9的比例混合)数据集来模拟大多数0.1%突变频率的等位基因变异。最终结果显示,在没有任何数据集训练的情况下,UVC的表现要优于Mageri。
4.8 使用Tumor-normal配对模式对含有UMI标签的扩增子数据进行重新分析,为DNA损伤修复提供额外信息
UVC是唯一可以同时识别Tumor和Normal样本中UMIs的变异检测软件,因此文章将其用于紫外线处理的亚克隆突变数据集。在此测试数据集中,SiMSen-seq是一种基于UMI的超灵敏扩增子测序技术,用于检测DNA修复缺陷细胞中选定启动子区域的亚克隆突变。将未经过紫外线处理的4个样品作为“对照”,将相应的4个经过紫外线处理的样品作为“肿瘤”,UVC在RPL13A 基因上游116 bp TTCCG启动子热点区域发现了先前报道的亚克隆突变,在默认设置下,所有4个样本的等位基因分数在0.05 ~ 0.5%之间。
5 讨论
在这里,文章证明了UVC,是一个通用的变异检测软件,它能通过贝叶斯因子校正比值比估计评估NGS偏倚,能够以较高的准确率检测snv和InDels。UVC能同时识别Tumor和Normal样本中UMIs,能准确检测TN中的信号。在敏感性-特异性方面,UVC在各种NGS数据集上的表现明显优于其他变异检测软件。此外,改进的UVC软件可以更好检测DNA损伤修复。
由于强 reference偏倚,UVC软件在 “4.2 WGS数据集上germline变异检测评估结果” 部分,在确定长germline InDEls 的杂合、纯合性上表现不是最优。在未来,文章可能会加入InDel重比对、局部组装来改进西能。此外,未来UVC可能会在功能中增加融合SV检测功能。
6 参考文献
[1] Xiaofei Z , Hu A C , Sizhen W , et al. Calling small variants using universality with Bayes-factor-adjusted odds ratios[J]. Briefings in Bioinformatics(1):1.