一二三代测序技术原理简介
NGS中的几个为什么
NGS的duplicate的问题
一代、二代、三代测序技术原理与比较
评论 | 测序江湖从春秋五霸到三国演义
桑格测序
Frederick Sanger 双脱氧终止法
2001年完成的人类基因组采用的就是该方法
以目的片段为模板,在DNA聚合酶的催化下,从引物处起始开始复制DNA,当遇到ddNTP,反应停止。如果ddNTP浓度高,结合几率高,阻碍链延长的几率就高,那么目的片段复制的长度就短。
这些扩增产物具有共同的起始点,但终止在不同的的核苷酸上。
Sanger法测序由一套四个单独的反应构成,每个反应系统包含
- 四种脱氧核苷酸三磷酸 (dNTP),可以正常合成DNA
- 一种不同的双脱氧核苷三磷酸 (ddNTP),由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,另外为了方便定位,需要用荧光或者同位素标记。
- 目标片段、DNA聚合酶、引物,反应体系
这样我们的四个反应体系构建完成
在电流与凝胶阻力的作用下,纵向会出现具有相同间隔有规律的条带,它代表着不同的序列长度,在横向分别对应ATGC。
可以用相同的激发波长且具有不同发射波长的荧光基团标记 ddNTP。就可以把四种 ddNTP 放在同一体系下,通过光激发将四种光波长信号转化为电脑可识别的电信号。
优缺点
- 优点
准确率高
速度快
读长700-1000bp
目前一代测序在验证序列以及验证基因组组装完整性方面都是金标准。 - 缺点
通量低 一次只能测一条单一的序列,广泛应用在单序列测序上。
昂贵 获得大量序列的成本很高。
为什么不能无限制读取
没有pcr 利用聚合酶延伸
受电泳技术的限制。首先电泳不能跑太久,DNA不是100%稳定;其次越长的片段跑的越慢,相差1bp的片段相差很小,有限电泳时间内难以区分,所以电泳对片段进行区分的本质就限制了Sanger测序的读长。
二代测序NGS
image.png平台
-
Roche/454
第一个发明的二代测序技术。基本原理是:一个片段 = 一个磁珠 = 一条读长,DNA片段无需进行荧光标记,无需电泳,边合成边测序,碱基在加入到序列中时,会脱掉一个焦磷酸,通过检测焦磷酸识别碱基,因此也被称为焦磷酸测序。 -
ABI/SOLiD
SOLiD技术是由连接酶测序法发展而来。SOLiD以四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统的聚合酶连接反应,可对单拷贝DNA片段进行大规模扩增和高通量并行测序。 -
Illumina/Solexa
Illumina公司的第二代测序仪最早由Solexa公司研发,其同样为边合成边测序,该技术在测序的过程中,加入改造过的DNA聚合酶和带有4种荧光标记的dNTP,因为dNTP的3'羟基末端带有可化学切割的部分,它只容许每个循环掺入单个碱基,此时,用激光扫描反应板表面,根据dNTP所带的荧光读取每条模板序列每一轮反应所聚合上去的核苷酸种类,经过“合成-清洗-拍照”的循环过程,最终得到目的片段的碱基排列顺序。
Roche/454技术原理
- Preparation
将DNA打断成300-800bp长的小片段,并在片段两端加上不同的接头,
两边都是一种A接头或者B接头的情况,会通过一些手段进行分离。最终得到具有AB接头的单链DNA片段。
加Y型adapter的目的:1)区分read1和read2,即DNA链的两端;2)防止adapter自连。
Y型adapter不是互补的,两端的序列不一致。
两个接头 最终片段
- Emulsion PCR
制造被矿物油包裹的水滴,每一个小水滴即为一个独立的PCR反应空间,理想状态下,每一个小水滴只包含一个DNA模板和一个磁珠,磁珠表面含有与接头互补的DNA序列,经过PCR扩增后,磁珠上会富集大量序列相同的PCR产物,从而达到测序所需DNA量的要求。
仅有微珠;有微珠却有多条模板;仅有模板等情况会通过一定的方法洗脱。
- Sequencing
测序时,需将磁珠固定在平板上。板上含有小孔,每个小孔仅能容纳一个磁珠,通过这种方法来固定每个磁珠。
image.png启动测序反应后,每次向PTP平板中加入一种dNTP,如果能与待测序列配对,则会释放焦磷酸,通过荧光酶产生荧光,通过照相机记录荧光,从而确定目的模板的核酸序列。
缺点
出现连续相同的碱基序列时,可能会存在错误。举个例子,当DNA链上出现了连续多个A,这样在反应中,就会加上多个T,那么如何判断多少个T呢?只能通过荧光信号的强度来判断,这里就有可能造成结果不准确。
SOLiD
image.pngSOLiD测序技术同样采用油包水的方式进行Emulsion PCR。
打破油水结构,对模板磁珠进行收集,得到最终产物。
最后,将含有DNA模板的磁珠结合在SOLiD玻片表面。磁珠是SOLiD测序的最小单元。每个磁珠SOLiD测序后形成一条序列。
磁珠固定进行测序时,其反应底物是含有8个碱基的单链荧光探针混合物,在测序时,这些探针按照碱基互补规则与单链DNA模板链配对,不同的探针的5'末端分别标记不同颜色的荧光染料,每两个碱基确定一个荧光信号,相当于一次能决定两个碱基,因此,这种测序方法也被称为两碱基测序法。
SOLiD是二代测序平台中精度最高的,然而因为读取长度受限,所以运行速度较慢。由于市场竞争和公司发展等原因,目前该平台已经淡出市场
通用 illumina 边合成边测序(sequence by synthesis, SBS)
名词
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
PE/MP: 双端测序,两端各测120-150bp
junction: 双端测序中间一些没有测到的区域
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
样本准备
提取样本基因组中的DNA随机打断。使用酶将两端补平,在3‘ 端加一个 A 碱基(用于连接接头序列)。添加特定的接头序列(已知的,用于测序识别),大概有三种:
第一部分是P5/P7,与测序芯片(Flow cell)中的oligo P5/P7序列呈互补状态。这段序列可以将待测片段固定在Flow cell上进行桥式PCR扩增;
第二部分是Rd1 /Rd2 SP(Read1/Read2 sequencing primer),是Read1和Read2测序引物结合的位置;
第三部分是index1/index2又称为barcode,目的是给文库加上特定的标签,用于混合文库测序时区分不同的样本。
image.png
簇生成
该过程在流动池 (Flowcell) 中完成。它是一片带有8条通道(lanes)的玻璃载玻,每个通道内表面附有两种DNA引物。
首先,引物会与样品中的DNA片段的接头序列互补配对,固定在通道表面
模板扩增lane上随机分布两种接头,p5‘(与P5互补),P7(与P7'互补)。
待测序列自带了p5接头和p7接头; 序列一开始利用p5接头互补
通过聚合酶生成杂交片段的互补片段,然后加入NaOH碱溶液后,双链分子变性,原始模板链(左边的链)被流动池中的液体洗去
加入中性液体用于中和碱溶液,剩下的单链另一端的接头就会与通道表面的引物结合,形成单链桥。
同样的,在聚合酶参与下,生成互补链,最终形成双链桥
通过变性,DNA分子线性化,变为两个单链
它们又分别与自己配对的引物结合
重复这个循环,同时形成数百万的簇。在这个过程中,所有的DNA片段都会被克隆扩增,放大单一碱基的信号强度。
桥式扩增后,P5'反向链会被加酶切断洗去,仅留下正向链。为防止特异性结合重新形成单链桥,3‘端被封锁
测序
首先,在Flowcell中加入荧光标记的dNTP和酶,由引物起始开始合成子链。但是dNTP存在 3’端叠氮基会阻碍子链延伸,这使得每个循环只能测得一个碱基。合成完一个碱基后, Flowcell 通入液体洗掉多余的dNTP和酶,使用显微镜的激光扫描特征荧光信号。
荧光发射波长与信号强度一起决定了碱基的读出,所有的DNA片段的一个碱基会被同时读取。
加入化学试剂将叠氮基团与荧光基团切除,然后 Flowcell 再通入荧光标记的dNTP和酶,由引物起始开始合成一个碱基。不断重复这个过程,完成第一次读取。
原始图像为黑白,计算机处理后变色
由于测序仪每次测序时的通量比较大,所以每次测得的序列可能不止一个样本。
为了去区分每个样本及正负链,科学家构建DNA文库时,在接头序列加入了的不同 index(或 barcode)来区分来源。
首先,在完成第一次读取后,复制出的链会被洗去
index 片段引物被引入并与模板杂交,完成序列读取后被洗去。index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱
image.png
PE
image.png image.png image.png这次是将正向链切除并洗去,只留下反向链
以测序引物为起始,与正向链类似,经过多个循环后完成读取。
双index PE策略的4个步骤分别为:
(1)Read1读取;
(2)Index1(i7)读取;
(3)倒链之后Index 2(i5)读取;
(4)Read 2读取。
数据分析
测序完成后会产生数百万个 reads,基于在样品准备时构建的 index 分类来自不同样本的序列。
二代测序优缺点
通量高,准确性高,成本低
一次能够测大量的序列,但是片段限制在250-300bp,
由于通过序列的重叠区域进行拼接,所以有些序列可能被测了好多次。由于建库中利用了PCR富集序列,因此有一些量少的序列可能无法被大量扩增,造成一些信息的丢失,且PCR中有概率会引入错配碱基。
复制差错
要保证测序的准确性,需要一个位点DNA簇的每条链同步复制,然而随着反应进行,不同链复制情况会出现差异
例如
第一个位点(假设位点1是A)序列都应该加A碱基,但是不巧有一条序列没有加上,所以就出现了199个红色1个灰色【当然目前还构不成影响】;
第二轮(假设位点2是G)大家应该都加G测得绿色,但是之前的那个没有加上A的,他要对之前的失误进行补偿,因此别的序列加G的时候,它加上了本该上次就加的A,它得到了红色,这个红色在一大群的绿色中就是作为杂信号存在的。依次向下,测序长度越长,杂信号越多,最后可能标准信号和杂信号各一半,这样系统无法判断,只能给N,而N多了对于后续的分析处理很麻烦,去了吧丢失数据,不去吧又是冗余。
三代测序
Pacbio
以SMRT芯片为测序载体,用4色荧光标记 4 种碱基。在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。保持酶活性(激光损伤),区别反应信号与周围游离碱基荧光背景是关键技术。
- 特点
读长长,测序速度快,测序错误率较高,达到15%,但是出错是随机的,可以通过多次测序来进行有效的纠错。
PacBio SMRT技术可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大
Nanopore
当DNA碱基通过纳米孔时,电荷发生变化,从而短暂地影响流过纳米孔的电流强度,检测这些变化从而鉴定所通过的碱基。
读长很长,达到几十kb,甚至100kb,错误率高,且是随机错误,能够直接读取出甲基化的胞嘧啶。
Ion torrent
用一种布满小孔的高密度半导体芯片(一个小孔就是一个测序反应池)。核苷酸聚合到延伸中的DNA链上时,会释放出一个氢离子,从而引起反应池中的PH发生改变,位于池下的离子感受器将感受到氢离子信号直接转化为数字信号,从而读出DNA序列。
特点
成本相对较低,操作简单,速度较快,但是通量不高。
总结
根本特点是单分子测序,不需要任何PCR的过程,虽然能有效避免因PCR偏向性而导致的系统错误,而且也能够获得很高的读长(10kb左右),但依赖DNA聚合酶的活性,且成本很高,单分子信号弱,目前的错误率在15%-40%,极大地高于二代测序技术。由于错误是完全随机发生的,可以靠覆盖度来纠错(但这要增加测序成本)。