NGS中的错误总结(一)--利用重复减少NGS测序错误

2021-05-16  本文已影响0人  生信小书童
image.png

简介

这是一篇发表于《Nature Reviews Gentics》上的一篇综述,名称为《实验重复在减少NGS测序错误中的作用》。虽然NGS测序技术的进步使得测序的保真性提高,测序错误率下降。但是考虑到人基因组数以十亿的碱基,极低的错误率仍然会在变异检测过程中产生许多的错误。一些错误变异和真实的somatic突变、稀有突变十分类似,下游实验验证这些假阳性变异会花费巨大。这篇文章主要描述了高通量实验中的错误来源,以及怎么利用重复来减少这些错误。

1 NGS中的错误来源

NGS错误可以来源于实验流程的各个步骤:样本处理、文库制备、测序及成像或拍照步骤。


image.png

1.1 样品制备

  1. 实验人员失误;例如,贴错标签。
  2. DNA或RNA的降解;例如,组织自溶,福尔马林固定石蜡包埋(FFPE)组织制备过程中的核酸降解和交联。
  3. 异源序列的污染;例如,支原体和异种移植的宿主污染。
  4. DNA起始量低。初始基因组产物数量不足、质量较低会导致扩增错误增多、并降低测序深度

1.2 文库制备

  1. 实验人员失误;例如,一个样品的DNA残留到下一个,之前反应的污染。
  2. PCR扩增错误。
  3. 引物偏倚;例如,结合偏倚,甲基化偏倚,错配偏倚,非特异性结合、引物二聚体、发夹结构的形成,熔解温度太高或太低引入的偏倚。
  4. 3’端捕获偏倚,在RNA测序的poly(A)富集过程中引入。
  5. 独有突变;例如,由重复区域或独有变异的错配而引入的突变。
  6. 机器故障;例如,PCR循环温度不正确。
  7. 嵌合体reads的形成。会引起双端reads文库较长的插入、错误突变、组装错误。
  8. barcode和/或接头错误;例如,接头污染,barcode多样性不足和barcode不兼容。会造成序列的污染、序列数量的损失、质量的下降。

1.3 测序和成像

  1. 实验人员失误;例如,流动槽过载引起的各簇之间的交叉污染。
  2. 移相;例如,延伸不完整以及多个核苷酸而不是单个核苷酸的加入。
  3. “Dead”荧光基团;例如,核苷酸损坏以及信号重叠。
  4. 序列区域;例如,富含GC,同源和低复杂度的区域,及均聚物。
  5. 机器故障;例如,激光、硬盘、软件和流体系统出故障。
  6. 链的偏倚。

2 利用实验重复减少NGS错误

2.1重复类型

重复类型包括,测序reads覆盖深度、技术重复(分析相同的样本,经历相同的处理步骤)、生物学重复(分析来自同一宿主的不同生物样本,经历相同的处理步骤)和跨平台重复。
目前减少测序错误的方法主要集中在后处理过滤策略上,包括过滤测序reads深度、碱基质量值、比对质量值、变异质量值、已知变异位点、链偏好性、等位基因不平衡性、序列上下文。这些后处理步骤综合考虑,可以提高最终变异检测的精度(FIG 1.b)


image.png

2.2利用重复优化过滤阈值

生信过滤参数可以通过技术重复、生物学重复和跨平台重复优化,提高流程的灵敏度和特异性。例如,每个人约有300万个变异位点,但是由于短序列的比对错误、嵌合体影响以及测序错误,变异软件可以检测出多达2000万个不同变异质量的变异。我们就可以利用重复的基因组序列进行测序,对变异阈值或者其他参数进行筛选,过滤假阳性变异。
如图2所示,类似于ROC曲线,可以根据重复实验选择出一致检出的突变位点(备选的真阳位点)和不一致检出的位点(备选的假阳位点),并按照优化参数(变异质量值,比对质量值)值进行排序,随着优化参数值的降低(降低筛选的严格程度),如果真阳变异和假阳变异在某一参数数值达到比较好的分离,就可以确定阈值。
图2中,X轴 "Fraction of discordant SNVs" 表示在特定阈值或以下的假阳性(不一致)变异数量占所有质量分数检测的假阳性(不一致)变异数量的比例。Y轴 "Fraction of concordant SNVs" 表示在特定阈值或以上的真阳性(一致)变异数量占所有质量分数检测的真阳性(一致)变异数量的比例。


image.png

参考文献:

[1] Robasky K , Lewis N E , Church G M . The role of replicates for error mitigation in next-generation sequencing[J]. Nature Reviews Genetics, 2014, 15(1):56-62.

上一篇下一篇

猜你喜欢

热点阅读