回顾illumina 双端测序原理
回顾二代双端测序原理
双端测序
上样
flowcell是用于吸附流动DNA片段的槽道,测序就在此进行。lane上随机分布两种接头,p5‘(与P5互补),P7(与P7'互补),待测序列自带了p5接头和p7接头。序列只能一开始是利用p5接头互补,因为p7接头和lane是一样的。将构建好文库中的待测序列配置成一定的浓度通过flowcell,序列会在特异的化学试剂作用下,强力随机地附着在lane上,并与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA,并且可以在表面进行桥式PCR扩增。要测序的是模版链p5 - p7,开始它与lane接头配对产生了互补链,后来强碱试剂作用下去杂,两条链被分开,由于模版链没有附着在lane上,模版链被冲走,但是互补链p5‘- p7‘ 依然稳稳固定在lane上。加入缓冲溶液,互补链的p7‘和lane上的p7互补(但还是一个lane中的),目的是快速扩增lane p7接头连接的链,也就是正链Forward Strand,它和模版链是一致的,后来测序的只用这一部分。PCR弯成桥状,一轮桥式扩增一倍,大约35个循环后,最终每个DNA片段都将在各自的位置上集中成束,这PCR是一群完全相同的序列,叫做cluster。桥式PCR目的在于实现放大单一碱基的信号强度,满足后期测序需求。桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。这一次不再进行复制,而是利用甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane 上p5‘ 连接的链,只留下了与lane p7连接的链即Forward Strand。
测序
首先primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP--它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能够激发出不同颜色;在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉;再加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号的记录,计算机将光学信号转化为测序碱基。
当信号被记录后,再加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光。如此重复直至所有链的碱基序列被检测出,得到了Forward Strand序列。
循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。
洗脱掉index2 产物后,还是一轮桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。
细节阐述
Flowcell(流动池)是有着2个或8个lane(泳道)的玻璃板,每个lane可以测一个样本或者多样本的混合物,且随机布满了能够与文库两端接头分别互补配对或一致的寡核苷酸(oligos,P7和P5接头)。一个lane包含两列,每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)。
一、Library Preparation文库的构建
1. 利用转座子(transposome)对双链DNA进行剪切以及接头(adapter)的连接
2. 接头连接成功后,利用低循环扩增技术在接头处进行修饰,分别在两端添加sequencing primer binding site1 / sequencing primer binding site2(即测序引物结合位点)、index1/index2以及我们称之P5和P7的寡核苷酸序列

注意:
- P5和P7是不同的,它们分别和flowcell上的接头互补和相同。为了方便阐述,将与P5互补的接头称为P5’,与P7互补的接头称为P7’。
- index1和index2也是不同的,与P5相连的是index2,与P7相连的是index1
关于index,也叫barcodes,因为一个lane可以同时测多个样品,为了避免混淆样品的read products,每种样品的DNA由一种index修饰,这样测序得到的reads都是具有index标记的,在测序结果中,依据之前标签与样品的对应关系,就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。
二、Cluster generation 簇生成
1. Flowcell上随机分布了两种不同的寡核苷酸序列,分别与P5互补(即P5’),与P7一致(即P7)。
2. 待测sequence通过P5与folwcell上的P5’序列杂交互补,以待测sequence为模板进行互补链(即reverse strand)的延伸,互补链的两端为P5’和P7’。
- 接下来模板链被切断并洗下
Reverse strand的P7’与Flowcell上的P7杂交互补,进行链的合成,这就是我们所熟知的桥式PCR
接下来合成的双链被解链,再分别与Flowcell上的接头杂交互补,延伸,解链,杂交,延伸,解链...如此重复35个循环
4. 桥式PCR完成后,使用NAOH将双链解链,并利用甲酰胺基嘧啶糖苷酶(Fpg)对8-氧鸟嘌呤糖苷(8-oxo-G)的选择性切断作用,选择性地将P5’与链的连接切断,留下与Flowcell上P7连接的链,也就是Forward strand。同时游离的3’端被阻断,防止不必要的DNA延伸
三、测序
1. 测序引物(sequencing primer)结合到靠近P5的测序引物结合位点1(sequencing primer binding site 1)上,在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点:它是有荧光基团标记的,每种碱基标记的荧光基团不一样;它的3’末端连了一个叠氮基,这个叠氮基能够阻断后面的碱基与它相连
因此在聚合酶的作用下,与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上,而由于叠氮基的存在,后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉,将Flowcell进行扫描,扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应,因此一个循环就能同时检测多个样本(这也是高通量的核心所在)。这个循环完成后,加入化学试剂把叠氮基和标记的荧光基团切掉,进行下一个循环(碱基的连接、检测与切除)。如此重复直至所有链的碱基序列被检测出,也就是Forward read 序列。
2. Index测序:所有循环结束后,read products 被洗掉,index1 primer与链上index primer1 结合位点杂交配对,进行index1的合成及检测
3. Index1测序完成后,洗脱测序产物。此时机器已通过荧光得到了index1的序列
4.Index2测序:Forward strand顶端的P5序列与Flowcell上的P5’杂交配对,进行index2测序。测序完成后洗脱产物
四、Paried-end sequencing(即对Reverse strand测序)
1. 洗脱index2测序产物后,以Flowcell上的P5’为引物,Forward strand为模板进行桥式扩增,得到双链
2. NAOH使双链变性为单链,并洗去已经测序完成的Forward strand
- 类似的,readprimer2结合到靠近P7’的read primer binding site 2开始对Reverse strand的测序。测序完成后即可得到Reverse read序列。
前面介绍的都是paired-end的测序,而single-end测序方式是只将index,sequencing primer binding site以及P7/P5添加到 fragamented DNA片段的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列