比较与进化基因组

胚系变异(SNP/InDel)频率波动的影响因素

2022-07-17  本文已影响0人  谦分之亿

背景

  在二代数据处理中,用GATK HaplotypeCaller去call二倍体胚系变异应该属于比较常用的检测SNP/InDel手段,对于二倍体而言,其突变频率VAF(Variant allele frequency)理论上应该是以下三种:野生型(WT)接近0%、杂合变异(HET)接近50%和纯合变异(HOM)接近100%。

image.png
文献链接:https://pubmed.ncbi.nlm.nih.gov/27144058/
  不过在实际项目中,即GATK出来的原始突变,VAF值五花八门,低于10%的杂合突变,接近75%的纯合突变等等。那么这些结果是怎么来的,我根据自身做过的项目经验总结了几点:

1.实验、测序等步骤误差

  生物实验对于试剂、温度、场地等条件要求其实是非常严格的,我经常见到由于外界季节变换导致PCR仪需要重新摸条件的情况(实验同事表示苦不堪言),还有什么气溶胶污染、样本降解之类的。总之,这些过程中经常会出现一些系统性偏差,导致突变的频率发生偏移。
  有篇2018年发表在《SCIENTIFIC REPORTS》杂志的一篇文章,系统地评估了短序列样品中NGS的错误率和发生原因。文献链接:https://pubmed.ncbi.nlm.nih.gov/30026539/
  其中样本制备这步引入的错误率约为1%~5%。

image.png
  最后第四行错误率特别突兀,是用以5’-乙炔-脱氧尿苷(EdU)代替胸腺嘧啶合成的序列,就暂不把它算进来。
  另外,测序本身的错误率较低,在0.1%~0.3%左右,用的是Illumina测序仪,和官方宣传的应该比较接近。
image.png
  测序错误实话真的不高,对于胚系变异影响甚微,综合来看实验、测序影响幅度估计5%左右。

2.体细胞变异

  这一类应该属于样本本身的原因,在生物生命周期中,即便是健康的细胞,也会累积很多体细胞突变,其突变丰度理论上可能为0-100%之间的任意值,(实际上低频突变应该占了绝大多数)。现在没有一款软件敢宣称能100%找准胚系变异,在30X WGS数据中,GATK检测SNP的F1值能到0.99,InDel的F1值能到0.98,也就是说,多多少少会有些假阳性结果,这些结果中可能就存在一些实际上是体细胞变异的漏网之鱼。

image.png
文献链接:https://pubmed.ncbi.nlm.nih.gov/32698196/

3.CNV

  拷贝数异常(copy number variations, CNVs)是基因组多态性的⼜⼀重要来源,据估计人CNV的累及的序列长度超过了基因组的12%,对⼈类健康和疾病的影响甚至超过了SNP。前面说的杂合变异VAF 50%,实际上是基于两个拷贝的情况下。如果变异刚好位于CNV区段或者基因上,根据拷贝数的不同,25%、33%、67%这些VAF结果的出现也就不奇怪了。

4.比对误差

  前面既然说了实验、测序误差,那么生信数据处理环节是否有误差?答案是当然有!其中影响最大的当属比对误差,不过比对误差不是凭空产生的,目前行业中使用的基于BWT的短序列比对算法软件,已经非常优秀了。只不过,在一些序列相似程度比较高的区域,比如重复区、同源区、假基因、单倍体型这些区域,特别容易发生比对误差,导致频率发生波动、甚至影响软件判断,出现假阴性和假阳性。
  比如2016年的一篇文献就罗列了部分因为同源性问题导致二代测序诊断容易出现错误的基因,其中引起脊髓性肌肉萎缩症(SMA)的一对著名同源基因SMN1和SMN2名列榜首。

image.png
文献链接:https://pubmed.ncbi.nlm.nih.gov/27228465/
  再如胰蛋白酶原基因座PRSS1和PRSS2,在人类中存在两种结构类型的单倍型:3基因单倍型与5基因单倍型。两者的差别在于5基因单倍型比3基因单倍型多了两个假基因(PRSS3P2和TRY7)。而当这两个假基因的NGS测序片段比对到3基因单倍型的参考基因组上时,就会由于序列的同源性被错误比对到PRSS1上,从而产生大量的假阳性,以致于需要开发专门的软件去分析。
image.png
图片来源:https://www.163.com/dy/article/H32K0USA0532HZIO.html

5.长片段InDel

  InDel检出的频率往往是低于预期频率的,主要原因是当前主流的算法软件计算支持突变深度时,需要序列同时覆盖突变前后一定bp数才行。这个现象在InDel很短,比如1-3bp的时候影响微乎其微,基本上发现不了,但是随着InDel长度的增加,实际检出的频率会偏离预期频率越大。

image.png
  拿一段15bp的缺失去做数据实测,在5%的预期突变频率下,实际检出的频率在3.5%左右,虽然影响不大,但是蚊子再小也是肉,几种因素的累加下,VAF五花八门也就说的通了。
image.png
图片来源:https://mp.weixin.qq.com/s/xu_z6zDD6CU5q5tvbmxW0g
  暂时想到这些,后续有其它因素或者材料会补充。
上一篇下一篇

猜你喜欢

热点阅读