Nanopore之“Q20+”技术简介及实测结果分享
Oxford Nanopore Technology在Nanopore 科研团体大会(Nanopore Community Meeting)上宣布了技术更新以及一系列产品的发布和升级。其主要内容是新技术“Q20+”的内容的发布。
“Q20+”是什么?
“Q20+”,顾名思义和准确度息息相关,这是一种包含最新“Q20+”化学试剂并支持“双链”(duplex)测序的新试剂盒Kit12和最新芯片R10.4相结合的测序技术,可以实现 >99% 的原始reads(单链)准确度,或约Q30 的双链(Duplex)准确度(Basecalling支持FAST、HAC、SUP模式),以及增强的高精度共有序列测序和变异识别。
原始读长准确度(单链)
下图从两个维度给大家展示了“Q20+”的单链模式的准确度变化,首先是从软件算法更新维度(左图),使用R9.4芯片,Kit10试剂盒建库,从guppy_2.1.3到现在的guppy_5.0.5的Q值统计结果,从图中可以看出Nanopore的准确度经过软件算法的升级有了极大的改善,其在SUP模式下中位数能够达到Q18的水平;然后是芯片及建库试剂维度(右图),主要展示了使用R9芯片、Kit10建库到R10芯片、Kit12建库的Q值统计结果,可以看到“Q20+”模式的Q值中位数能够达到Q20以上。

原始读长准确度(双链Duplex)
“Q20+”更是支持双链测序的方式,其成对的反向互补序列能够帮助纠正测序过程中出现的错误,其测序原始reads的准确度更是能够达到接近Q30(99.9%)的水平(右图)。

共有序列(Consensus)准确度
将一个特定DNA/RNA区域的多个拷贝堆叠,意味着随机错误被平均“抵消”,产生一个更准确的一致性“共有”序列。以细菌基因组为例,普通模式下即使深度再高,其基因组的质量值也很难达到Q50的程度,而“Q20+”则是在20x的测序深度下即可达到Q50(99.999%)的程度。“Q20+”模式下的测序数据使我们能够得到准确度更高的基因组,也为后续的分析打下了更为坚实的基础。

对于变异检测,甲基化分析,“Q20+”也是有了不同程度的提升。

应用方向
“Q20+”计划在未来可以在多方面领域进行使用:测序上得到高准确度的原始reads序列,Duplex模式下更是能够达到接近Q30的程度;对于组装,连续性上更是有着极大的提升,人类基因组可达N50 80Mbp;变异检测可实现对SNP及SV的检测;也能够满足5mC和5hmC的甲基化分析需求。

实测结果
以上对Nanopore的升级点进行了一一列举,我们选取了水稻(1个cell)以及人类样本(2个cell)作为本次的测试数据,下面让我们一起来看下实测结果。
水稻样本




人类样本




从测序结果来看,水稻及人类样本的单cell产出均能达到50G以上,经过芯片及算法的升级,basecalling的准确度有了大幅度的提升,特别是在水稻样本上,其平均Q值从10.9提升至了13.6;Q15以上的reads含量更是超过了50%;人类样本的平均Q值达到了14.8,大于Q15的reads含量达到了61.65%;从大于Q20的以上的数据量来看,更是相差了好几个数量级,水稻82.8K提升到了5.1G,人类样本1.6M提升到了30.5G。综上,“Q20+”的出现,在保证产出的情况下极大的提升了测序数据的准确率!
从组装评估结果上来看“Q20+”的平均contig长度更长,而BUSCO、mapping率、coverage的评估指标是相差不大的,且均能达到LAI大于20的“金标准”,QV值也是能够达到40以上,得到的基因组准确度都是相当之高的。

从以上汇总结果来看Hifi reads整体的质量值是要高于“Q20+”的,但是我们从组装的结果上来看,两种测序平台组装的结果是各具特色的。Hifi数据拥有着更高质量的reads,而“Q20+”则是在得到一个较高质量reads的同时,读长更有优势,组装得到的contig平均读长会更长一些,我们可以将二者的优势相结合,以“Q20+”组装contig作为“骨架”,使用hifi组装的contig进行替换,来实现更高质量的基因组组装(完整基因组)。老师们可以根据自己的科研情况选择适合自己的平台来进行基因组的组装工作。