转录组测序原理
Author:ligc
Date:19/5/12
1. 一代测序(Sanger sequencing)
双脱氧链终止法采用DNA复制原理。 Sanger测序反应体系中包括目标DNA片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及DNA聚合酶等。 测序反应的核心就是其使用的ddNTP:由于缺少3'-OH基团,不具有与另一个dNTP连接形成磷酸二酯键的能力,这些ddNTP可用来中止DNA链的延伸。此外,这些ddNTP上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。
设置四个反应体系1-4,分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP(带有放射性标记)例如1中是ddATP,它就负责测定T碱基的位置;依次2是ddCTP,3是ddTTP, 4是ddGTP。假如扩增过程中ddATP遇到了T位点,就结合并终止(因为ddNTP的2‘和3'都没有羟基),一段时间内大量的ddNTP会结合完所有测序位点。
sanger最后利用凝胶电泳和放射自显影只能看到带有荧光标记的ddNTP,他们的排列顺序先利用电泳条带前后关系确定下,再用A-T, T-A, C-G, G-C关系反转一下,就能知道我们的测序序列。
一代测序技术的主要特点就是测序读长可达1000bp,准确性高达99.999%,二三代所不能及),但它的通量低,成本高。目前一代测序在验证序列(就是平时送公司测序返回来自己blast的那些)以及验证基因组组装完整性方面都是金标准。
2. 二代测序(sequencing by synthesis,SBS)
Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上,主要包括Miseq,Hiseq。下面👇就主要介绍它的PE(Pair End双端)测序原理:
2.1文库构建
名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
index(barcode):一个lane通常要测多个样品,每个样品都加上特定的序列标签,用于区分不同样品。
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
image.png
打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是平末端。
完成补平以后,在3'端使用酶加上一个特异的碱基A,加上A之后就可以利用互补配对的原则,加上adapter,这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列。
进行PCR扩增,使得我们的DNA样品浓度足够上机要求。
library construction
image.png
什么是插入片段?
reads1 与 reads2 不发生重叠
- 图中是Pair-End(PE)测序,测的是两个末端,得到的序列是Read1和Read2,很多时候Read1+Read2的长度都是小于这个插入片段的长度的。在不测通的情况下,它中间一定有一段不明长度的序列我们无法测到,这段不被测到的序列有时被称为Inner序列,它的长度是Read1和Read2相距的距离。
image.png
reads1 与 reads2 发生重叠 - 测序读长较长,比如MiSeq的测序读长可以到达250bp,PE测的话,Read1+Read2就达到500bp,如果我们的建库序列长度是400bp,那么就会被测通,而且中间有约100bp是Read1和Read2重叠测到的区域。
image.png
测通
它是Read重叠的进一步延伸,原因是相同的,就是有些插入片段长度太短了,导致Read能够完全跨越整个插入片段,比如图里,所有长度小于100bp的插入片段,它们都会被测通,而且还会直接测到片段两端的接头序列,这时就需要对产生的数据进行cut adapter。
image.png
2.2 上样
flowcell是用于吸附流动DNA片段的槽道,测序就在此进行。上面构建好的文库中的待测序列事先配置好一定的浓度,经过这里的时候,会在特异的化学试剂作用下,强力随机地附着在lane上,与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA,并且可以在表面进行桥式PCR扩增。
2.3 桥式PCR
- 第一轮扩增模版:flowcell表面固定的序列 --> 模版链
- 去杂:加入NaOH强碱性溶液使双链DNA变性,互补链由于和lane上短序列强力连接固定住了;模板链失去了双链氢键连接,好似悬空,它会被洗脱。
- 桥式形成: 加入缓冲溶液,互补链的p7‘和lane上的p7互补(但还是一个lane中的)就像下图这样(摘自illumina官网)目的是快速扩增lane p7接头连接的链,也就是下图中的Forward Strand,它和我们的模版链是一致的。我们后来测序只用这一半。
- 桥式PCR: PCR弯成桥状,一轮桥式扩增一倍。
- 循环: 大约35个循环后,最终每个DNA片段都将在各自的位置上集中成束,称为cluster,这是一群完全相同的序列。目的在于实现放大单一碱基的信号强度,满足后期测序需求。
-
解链: 桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。这一次不再进行复制,而是利用一种酶--甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane 上p5‘ 连接的链,只留下了与lane p7连接的链即Forward Strand。
image.png
image.png
image.png
2.4 测序
双端测序之Forward Strand:
- 先是primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP【它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能激发不同颜色】;
- 在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉;再加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号的记录,计算机将光学信号转化为测序碱基,这一个循环就能测定flowcell上成千上万的cluster,这就实现了高通量。
- 再加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光。如此重复直至所有链的碱基序列被检测出。得到了Forward Strand序列。
- 因为一个cluster的序列是一样的,所以理论上cluster的荧光颜色应该一致。
image.png
Index测序: 上面的循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。
image.png
双端测序之Reverse Strand:
洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。
single-end只将index,Primer binding site以及P7/P5添加到 fragamented DNA片段的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列
为什么Illumina测序会有长度限制呢?
- 测序时,经过长时间的PCR,会有不同步的情况。通俗一点讲,比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,就变成了,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现,50个红,50个绿色,这时候我们判断不出来到底是什么碱基被合成。
2.测序过程中,使用的碱基是特殊处理的,有一个非常大的荧光基团修饰。在使用DNA ploymerase的时候,酶的状态也会受到底物的影响,越来越差。
2.5 数据产生:
Hiseq2000测序仪
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)
数据量=单端reads长度 * 单端reads个数 * 2(PE)
测序深度=数据量大小 / 参考基因组大小
第三代测序技术
这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的。
PacBio SMRT
-
PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体(如同flowcell)。基本原理是: DNA聚合酶和模板结合,用4色荧光标记A,C,G,T这4种碱基(即是dNTP)。在碱基的配对阶段,不同的碱基加入,会发出不同的光,根据光的波长与峰值可判断进入的碱基类型。
image.png
这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。这些小孔的直径是有严格要求的,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板从而泄露出来(光波的衍射效应),从而与周围小孔相互干扰(光波的干涉)。如果孔径能够小于波长,那么能量就不会辐射到周围,而是保持直线状态,从而可起到保护的作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔,,即 ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅仅只是来自于这个小反应区域,孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景噪音降到最低的目的。
- PacBio SMRT技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息。
- SMRT技术的测序速度很快,每秒约10个dNTP。但这么快的测序速度也带来了一些明显的缺点——测序错误率比较高(这几乎是目前单分子测序技术的通病),可以达到10%-15%,而且以缺失序列和错位居多,但好在它的出错是随机的,并不会像第二代测序技术那样存在一定的碱基偏向(PCR biasing),因此可以通过多次测序来进行有效纠错。
Oxford Nanopore
-
这个技术的关键点在于他们所设计的一种特殊纳米孔,孔内共价结合分子接头。当DNA分子通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),最后高灵敏度的电子设备检测到这些变化从而鉴定所通过的碱基。
image.png - 纳米孔测序以及其他第三代测序技术,有可能会彻底地解决目前第二代测序平台的诸多不足。另外,MinION的主要特点是:读长很长,而且比PacBio的都长得多,基本都是在几十kb上百kb以上,最新的数据显示可以达到900 kb!错误率是5%-15%,也是随机错误,MinION最大的特点除了极小的体积之外,就是数据将是可实时读取/的,并且起始DNA在测序过程中不被破坏!这种纳米孔单分子测序仪还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像二代测序方法那样需要事先对基因组进行bisulfite(酸性亚硫酸盐)处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。
参考文章:
1.https://www.jianshu.com/p/101c14c3a1d2
2.https://zhuanlan.zhihu.com/p/20702684
3.https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4.https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A