Pacbio和Nanopore测序技术之拳王争霸

2020-03-22 本文已影响0人生信阿拉丁

作者:May
审稿:童蒙
编辑:amethyst

引言

大家好，又到了阿拉丁聊基因组的时间了。今天我们按照上期的计划，我们来聊一下基因组测序技术中的两大神兵利器之--Pacbio和Nanopore。如今在基因组圈里走天下的各种大佬，这两种技术可是家喻户晓。基因组的重点在于contig的连续度和准确度，我们一直在期待可以直接把染色体测通，但是我们人类一直在努力，可从未超越。因此，我们在测序的道路上不断的尝试和努力，从二代测序测序一路披荆斩棘迈向了三代测序。因此，基因组的连续度迅速增加，享受了科技带来的福利。PacBio和Nanopore做为目前主流的长读长测序平台，二者分庭抗礼，各有所长，那么我们该怎么选择呢？下面将从二者的测序原理、错误类型，实际应用等方面展示两种测序平台各自的优缺点，至于如何选择，大家因需取求。

1.PacBio和Nanopore不同方面的对比

1.1测序原理对比

PacBio测序基于边合成边测序的原理。实时记录荧光信号，转化为单碱基信息，获得具有单碱基分辨率的高精度序列。PacBio测序依赖DNA聚合酶活性，DNA聚合酶和带有不同荧光标记的dNTP，放置到纳米孔的底部的聚合酶进行DNA合成反应。当dNTP进入DNA模板链、引物和聚合酶复合物中发生链延伸反应，同时通过检测dNTP荧光信号，获得荧光信号图像，最后将光学峰转化为碱基（图1）。PacBio sequel平台下机数据为bam格式，包含三个文件：bam 文件，bam.pbi 文件，以及xml文件。此刻，请大家注意，该bam文件与比对到基因组生成的bam文件格式大体一致，但是同中有异。Pacbio测序获得的bam文件可以转化为fasta，然后可以使用各种软件进行组装。

图1 PacBio测序原理

Nanopore测序是基于电信号检测原理，当DNA分子穿过纳米孔时会产生电流信号，一般以5个碱基为一组检测电流信号，对电流信号进行解码（图2）。Nanopore测序不依赖DNA聚合酶活性，理论上只要DNA分子不断开，就一直可以通过纳米孔，得到的序列读长更长，最长可达Mb级别。Nanopore下机的原始电信号文件，以.fast5结尾，包含测序的序列信息和甲基化修饰信息。经过basecalling软件（Guppy，Albacore等）可以将fast5文件转换为fq文件进行后续分析。一般根据Q score>7对数据进行质控，通过的为pass，没有通过为fail。

图2 Nanopore测序原理

1.2建库测序模式对比

PacBio测序有两种模式，一种是CLR模式，另一种是CCS模式。对于长插入片段文库，产生的序列的一般少于2 passes的（pass即环绕测序的次数），得到的reads称为Continuous Long Reads（CLR），当文库插入片段相对较短时，测序后会产生多个passes，来源于同一个孔的多条reads通过一致性校正，得到一个准确度较高的reads，称为Circular Consensus Sequencing（CCS）Reads（图3），全长转录组或全长16S测序通常使用这种模式进行测序。CCS reads在测序后经过Subreads自身的校正，准确率大幅度提升，根据官方报道，人类样品经过CCS测序模式，序列准确率能够达到99.8%，在准确度上可以与二代Illumina测序的数据质量匹敌，Illumina的测序准确度为99.9%（Wenger et al., 2019）。

图3 PacBio文库及产生序列类型

Nanopore有三种建库方式，主要在接头上的差异，根据加入不同的接头可以分为1D、2D和1D2文库。1D文库加入引导接头（Leading Adaptor），2D既有引导接头，还有连接双链DNA分子的发夹接头（Hairpin Adaptor），1D2测序先加入1D2接头，再连接引导接头。当模板链完成测序后，互补链的马达蛋白被捕获进行互补链测序（图4）。从目前应用最多的是1D文库。除此之外，Nanopore还有另一种获得超长reads的测序方式，称为Ultra-Long测序，序列读长普遍大于一般文库，最长可达Mb级别，是不是很诱人。

图4 Nanopore文库及产生序列类型

1.3错误类型对比

任何一种技术都不是完美的，都有自己的缺陷，那么Pacbio和Nanopore也一样不能逃脱错误的命运。以上我们了解了PacBio和Nanopore的测序原理之后，我们来看一下两种技术在错误方面的表现吧。

Pacbio的CLR模式下，一般的错误率在10-15%左右，但是这种错误是随机错误，主要类型为Indel和Mismatch，但是此类错误类型及碱基类型均无偏向性，这种缺陷可通过自身纠错获得准确度高达QV50（99.999%）的序列（图5）。

图5. PacBio错误类型

Nanopore的测序错误除Indel和Mismatch之外，主要是同聚物（homopolymer）和串联重复区域的错误（Wick et al., 2019），特别是同聚物删除（homopolymer deletion）的错误较高（图6）。另外，有研究表明基因组中反向重复序列序列会使Nanopore的测序质量下降，得到的序列准确度受到影响（Spealman et al., 2019）。因此，基因组重复比较高的物种，使用此技术要小心了，可能在重复区域准确度不一定高，如果该区域Pacbio不能跨越的话，此技术还是比较好，毕竟有总比没有强。

图6. Nanopore错误类型

2.PacBio与Nanopore的效果评价

测序获得的序列读长是基因组组装的关键因素，因此，长读长测序技术引领基因组进入N50为Mb级别的时代。PacBio与Nanopore测序虽然存在一定错误，但当达到一定的测序深度时，在组装过程中绝大多数测序错误可以通过自身的校正被修正，因此都可以获得相对高质量的的基因组，也成为了目前基因组组装的首选。

利用PacBio测序组装的基因组近年已经发表了很多文章，基于此的组装软件目前也比较多，PacBio 官方推出了组装软件FALCON。其他软件如Canu，WTDBG，SmartDenovo等应用也很广泛，这些软件同样可以用于Nanopore组装。PacBio通量提高后，使用HiFi模式获得长读长、高准确度的CCS序列， PacBio通过HiFi模式测序的得到的30XCCS数据，通过Falcon，Canu和WTDBG2等不同软件组装，contig N50达到15.43-28.95Mb，组装连续性与CLR reads相当，准确率大幅提升（Wenger et al., 2019）。

Nanopore的优势在于其超长的读长，在人类基因组中通过~30X reads和~5X的Ultra-Long reads，最长reads达到882Kb，组装出人类基因组contig N50达到6.4M（Jain et al., 2018）。但是Nanopore的同聚物错误使得这些错误往往出现在基因组某些特定的序列或区域，造成自身纠错和用二代数据校正无法纠正，序列错误和真实变异难以区分，影响组装基因组的准确性。

3. 二者优缺点

看了这么多，一起来总结一下这两种技术的优缺点。Pacbio和Nanopore就像两个学校的尖子生一样，具有不同的性格。Pacbio学生每次考试注重每道题的正确率，可能要花很长时间来做一道题，一种笨鸟先飞的特性，一次不能保证正确率，就多检查几次，提高答题的准确度。而Nanopore学生具有另一种品质，做题非常快，但是几乎不检查。因此，Nanopore学生可以完成比Pacbio学术更多的考题。最后，在提交的答卷中，Nanopore学生的答卷一般情况下都比Pacbio学生的答卷完成的题目多。但是，最终得分，需要老师来评价。这个老师就是我们每个研究者自己。

Pacbio追求的是质量，使用的是光信号，因此可以通过多测几次，来提高测序的准确度，但是这种方法也有它自身的限制，酶的活性决定了它不能够测的特别长。

Nanopore追求的是长度，采用的是电信号，对于一条DNA，最多测两次，电信号的稳定性是最大的挑战，因此在测序准确度上做了让步。这种电信号也为它打开了许多大门，可以测很多东西，比如直接RNA测序，甚至蛋白测序。

下期预告

基础知识了解完了，那我们下期就面对疾风吧——实战来袭。

参考文献

Jain, M., Koren, S., Miga, K.H., Quick, J., Rand, A.C., Sasani, T.A., Tyson, J.R., Beggs, A.D., Dilthey, A.T., Fiddes, I.T., et al. (2018). Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotechnol 36, 338-345.

Spealman P, Burrell J, Gresham D. Nanopore sequencing undergoes catastrophic sequence failure at inverted duplicated DNA sequences. BioRxiv, 2019: 852665.

Wenger, A.M., Peluso, P., Rowell, W.J., Chang, P.C., Hall, R.J., Concepcion, G.T., Ebler, J., Fungtammasan, A., Kolesnikov, A., Olson, N.D., et al. (2019). Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol 37, 1155-1162.

Wick, R.R., Judd, L.M., and Holt, K.E. (2019). Performance of neural network basecalling tools for Oxford Nanopore sequencing. Genome Biol 20, 129.