生信基础知识生物学知识

转录组测序原理

2019-05-12  本文已影响72人  颤抖吧__小虫子
Author:ligc
Date:19/5/12

1. 一代测序(Sanger sequencing)

双脱氧链终止法采用DNA复制原理。 Sanger测序反应体系中包括目标DNA片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及DNA聚合酶等。 测序反应的核心就是其使用的ddNTP:由于缺少3'-OH基团,不具有与另一个dNTP连接形成磷酸二酯键的能力,这些ddNTP可用来中止DNA链的延伸。此外,这些ddNTP上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。

设置四个反应体系1-4,分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP(带有放射性标记)例如1中是ddATP,它就负责测定T碱基的位置;依次2是ddCTP,3是ddTTP, 4是ddGTP。假如扩增过程中ddATP遇到了T位点,就结合并终止(因为ddNTP的2‘和3'都没有羟基),一段时间内大量的ddNTP会结合完所有测序位点。

最后利用凝胶电泳和放射自显影只能看到带有荧光标记的ddNTP,他们的排列顺序先利用电泳条带前后关系确定下,再用A-T, T-A, C-G, G-C关系反转一下,就能知道我们的测序序列。

sanger

一代测序技术的主要特点就是测序读长可达1000bp,准确性高达99.999%,二三代所不能及),但它的通量低,成本高。目前一代测序在验证序列(就是平时送公司测序返回来自己blast的那些)以及验证基因组组装完整性方面都是金标准。

2. 二代测序(sequencing by synthesis,SBS)

Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上,主要包括Miseq,Hiseq。下面👇就主要介绍它的PE(Pair End双端)测序原理:

2.1文库构建

名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
index(barcode):一个lane通常要测多个样品,每个样品都加上特定的序列标签,用于区分不同样品。
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)


image.png

打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是平末端。
完成补平以后,在3'端使用酶加上一个特异的碱基A,加上A之后就可以利用互补配对的原则,加上adapter,这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列。
进行PCR扩增,使得我们的DNA样品浓度足够上机要求。


library construction
image.png
什么是插入片段?

reads1 与 reads2 不发生重叠

2.2 上样

flowcell是用于吸附流动DNA片段的槽道,测序就在此进行。上面构建好的文库中的待测序列事先配置好一定的浓度,经过这里的时候,会在特异的化学试剂作用下,强力随机地附着在lane上,与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA,并且可以在表面进行桥式PCR扩增。

2.3 桥式PCR
2.4 测序

双端测序之Forward Strand

image.png

single-end只将index,Primer binding site以及P7/P5添加到 fragamented DNA片段的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列

为什么Illumina测序会有长度限制呢?

  1. 测序时,经过长时间的PCR,会有不同步的情况。通俗一点讲,比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,就变成了,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现,50个红,50个绿色,这时候我们判断不出来到底是什么碱基被合成。
    2.测序过程中,使用的碱基是特殊处理的,有一个非常大的荧光基团修饰。在使用DNA ploymerase的时候,酶的状态也会受到底物的影响,越来越差。
2.5 数据产生:

Hiseq2000测序仪
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)
数据量=单端reads长度 * 单端reads个数 * 2(PE)
测序深度=数据量大小 / 参考基因组大小


第三代测序技术

这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的。

PacBio SMRT

这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。这些小孔的直径是有严格要求的,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板从而泄露出来(光波的衍射效应),从而与周围小孔相互干扰(光波的干涉)。如果孔径能够小于波长,那么能量就不会辐射到周围,而是保持直线状态,从而可起到保护的作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔,,即 ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅仅只是来自于这个小反应区域,孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景噪音降到最低的目的。

Oxford Nanopore
参考文章:

1.https://www.jianshu.com/p/101c14c3a1d2
2.https://zhuanlan.zhihu.com/p/20702684
3.https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4.https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A

上一篇 下一篇

猜你喜欢

热点阅读