测了那么多数据，你知道测序的原理吗？

2019-07-02 本文已影响133人 gtt儿_生物信息学习

测了那么多数据，你知道测序的原理吗？

image

注：测序过程
Illumina分成了四步：

sample prep,样本准备
cluster generation，簇的生成
sequencing，测序
data analysis，数据分析

1. sample prep

样品准备的方法很多，而所有的方法都是在DNA的末端添加adaptors。通过循环扩增的减少，另外的motif被引入，例如测序结合位点，index以及与flowcell互补结合的区域。

image

注：左右两端颜色不同的序列就是新加入的adaptor，index等

2. Cluster generation

成簇是每个分子被等温扩增的过程。Flowcell是带有lane流通槽的玻璃板，而每个lane上固定了两种寡核苷酸。

image

注：这就是flowcell
杂交发生在两种寡核苷酸中的一种。

image

注：紫色为分子片段和lane上的寡核苷酸结合

这个寡核苷酸与一个分子片段的adapter区域结合，聚合酶生成杂交片段的互补片段。双链分子变性，原始模板被洗去，剩下的链通过桥式扩增进行克隆扩增。在这个过程中，链发生了折叠，并且adapter与flowcell中的另一种寡核苷酸杂交。聚合酶产生互补链，形成双链桥。

image

注：双链桥的形成过程

该桥被变性，形成2个固定在flowcell上的单链分子。

image

注：解链为单链

这个过程被反复的重复，形成数百万个cluster，从而使所有片段被克隆扩增。桥式扩增后，反向链被切断洗去，留下正向链。3‘端被锁住以防止非特异性结合。

3. Sequencing

测序从第一个测序引物的延伸生成第一个read开始。在每个循环过程中，带有荧光标记的的核苷酸竞争性的加入生长链。基于模板序列，只有一个核苷酸被加入。在每添加一个核苷酸后，簇被光源激发，并发射出特异荧光信号，这个过程被称为边合成边测序。循环的次数取决于read的长度。发射波长和信号强度一起，决定了碱基的call。对于给定的cluster，所有相同的read被同时读出。在大规模并行的过程中，数以千万计的簇被测序。在第一个read结束后，read产物被洗去。

image

注：测序的过程

在这个步骤中，index1的引物被引入并与模板杂交，类似于第一个read，这个read被产生。在index read完成后，read的产物被洗掉，模板3’端被去保护后发生折叠，并结合在flowcell上的第二个寡核苷酸。Index2和index1一样被读取，聚合酶延伸第二个flowcell上的寡核苷酸，形成一个双链桥。然后双链DNA分子被线性化，并将3‘端锁住。原始正向链被切除并洗去。只留下反向链。Read 2从read2测序引物开始被读取，和read1一样，测序步骤被重复，直到达到预期的读段长度，然后将read2产物洗去。

4. Data Analysis

image

注：测出的序列

测序的过程产生数百万的reads，代表着所有分子片段，基于在样品准备过程中引入独特的index，来自样品库的序列被分离。

image

注：被分开的序列
对于每个样品，具有相似延伸的碱基被成簇。正向和反向reads被配对生成连续序列，这些序列和参考基因组比对，用于突变的确定。

image

注：map的过程

配对信息被用于解决有歧义的比对。基因组数据可以在BaseSpace Sequence Hub被安全的转化，储存和分析和分享。

这就是illumina测序的过程。

欢迎关注个人公众号：生物信息学习。

image

测了那么多数据，你知道测序的原理吗？

猜你喜欢

热点阅读