测了那么多数据,你知道测序的原理吗?
测了那么多数据,你知道测序的原理吗?
image
注:测序过程
Illumina分成了四步:
-
sample prep,样本准备
-
cluster generation,簇的生成
-
sequencing,测序
-
data analysis,数据分析
1. sample prep
样品准备的方法很多,而所有的方法都是在DNA的末端添加adaptors。通过循环扩增的减少,另外的motif被引入,例如测序结合位点,index以及与flowcell互补结合的区域。
image注:左右两端颜色不同的序列就是新加入的adaptor,index等
2. Cluster generation
成簇是每个分子被等温扩增的过程。Flowcell是带有lane流通槽的玻璃板,而每个lane上固定了两种寡核苷酸。
image注:这就是flowcell
杂交发生在两种寡核苷酸中的一种。
注:紫色为分子片段和lane上的寡核苷酸结合
这个寡核苷酸与一个分子片段的adapter区域结合,聚合酶生成杂交片段的互补片段。双链分子变性,原始模板被洗去,剩下的链通过桥式扩增进行克隆扩增。在这个过程中,链发生了折叠,并且adapter与flowcell中的另一种寡核苷酸杂交。聚合酶产生互补链,形成双链桥。
image注:双链桥的形成过程
该桥被变性,形成2个固定在flowcell上的单链分子。
image注:解链为单链
这个过程被反复的重复,形成数百万个cluster,从而使所有片段被克隆扩增。桥式扩增后,反向链被切断洗去,留下正向链。3‘端被锁住以防止非特异性结合。
3. Sequencing
测序从第一个测序引物的延伸生成第一个read开始。在每个循环过程中,带有荧光标记的的核苷酸竞争性的加入生长链。基于模板序列,只有一个核苷酸被加入。在每添加一个核苷酸后,簇被光源激发,并发射出特异荧光信号,这个过程被称为边合成边测序。循环的次数取决于read的长度。发射波长和信号强度一起,决定了碱基的call。对于给定的cluster,所有相同的read被同时读出。在大规模并行的过程中,数以千万计的簇被测序。在第一个read结束后,read产物被洗去。 image注:测序的过程
在这个步骤中,index1的引物被引入并与模板杂交,类似于第一个read,这个read被产生。在index read完成后,read的产物被洗掉,模板3’端被去保护后发生折叠,并结合在flowcell上的第二个寡核苷酸。Index2和index1一样被读取,聚合酶延伸第二个flowcell上的寡核苷酸,形成一个双链桥。然后双链DNA分子被线性化,并将3‘端锁住。原始正向链被切除并洗去。只留下反向链。Read 2从read2测序引物开始被读取,和read1一样,测序步骤被重复,直到达到预期的读段长度,然后将read2产物洗去。
4. Data Analysis
image注:测出的序列
测序的过程产生数百万的reads,代表着所有分子片段,基于在样品准备过程中引入独特的index,来自样品库的序列被分离。
image注:被分开的序列
对于每个样品,具有相似延伸的碱基被成簇。正向和反向reads被配对生成连续序列,这些序列和参考基因组比对,用于突变的确定。
注:map的过程
配对信息被用于解决有歧义的比对。基因组数据可以在BaseSpace Sequence Hub被安全的转化,储存和分析和分享。
这就是illumina测序的过程。
推荐视频:https://www.bilibili.com/video/av13107081
欢迎关注个人公众号:生物信息学习。
image