【陈巍学基因-7】长测序
欢迎关注公众号:oddxix
Moleculo原来是美国的一家创业公司。这家公司开发了一种拼接长测序序列的方法。这个方法一经面世,就引起了Illumina的重视,Illumina马上出巨资,收购了这家公司。
在收购了Moleculo之后,Illumina把这个方法进行了优化。优化之后,以“TruSeq Synthetic Long-Read DNA Library Kit”的形式,出现在Illumina的新产品当中。在全新的基因组组装工作中,也就是我们通常所说的“De Novo”工作中,最核心的技术点,是能否得到大量的、长读长的序列。所以,得到长的读长序列,一直是做De novo工作的科学家所追求的有效技术手段。另外,长读长的序列还可以帮助科学家来确定染色体单体的基因型。
Illumina标准的HiSeq/MiSeq测序方法,提供了一次给出大量序列的方法。它的序列,精度也很高,每个G的数据的测序成本也很低,但是,相对于De novo工作来说,它的读长还是不够长。举例来说,Illumina旗下测序长度最长的MiSeq测序仪它的测序长度是:双端各300个碱基。那么,我们把这双端的300个碱基拼起来,中间交错100个碱基,可以得到一个500碱基的读长,那么,我们要用500碱基读长的序列来组装一个和人类基因组大小相近的一个基因组,也就是单倍体长度为30亿个碱基长度的基因组,就相当于用筷子那么长(25厘米)的铁轨,来拼出一个京沪铁路(1300公里)。
Moleculo方法,它的巧妙点就是可以把Illumina不算太长的序列,拼接成一个一个10KB读长的序列,然后,再拼出基因组来。
第一步,分拆
首先是把长片段的基因组DNA,也就是40KB以上的长片段的基因组DNA,打断成10KB左右的DNA片段。这个打断的过程,是用Covaris公司出品的g-TUBE方法来打断的。g-TUBE可以把长的基因组DNA,打断成5KB-20KB长度的片段。
打断了的DNA片段,末端大多数不是平齐的。接下来,就要用酶把这个末端给补平。补平的过程,是用T4 DNA聚合酶、和Klenow聚合酶,两者的混合酶来进行补平。然后,再用T4 DNA寡核苷酸激酶,在5'端统一地加上磷酸基团。补平之后,再用去掉了3'端外切酶活性的Klenow大片段聚合酶来进行处理。
这样,可以在每个片段的两个3'端,都各加上一个A碱基。加好了A碱基之后再用连接酶,在DNA片段的两端连上第一步的PCR接头。连好接头的DNA片段,走琼脂糖凝胶,切胶回收10KB左右的DNA片段。回收下来的DNA片段,用qPCR进行精确定量。
第二步,扩增
用qPCR精确定量好之后的DNA片段,做成一个长PCR的Master Mix。然后,把这个Master Mix分散到384孔PCR板里面,进行长PCR。
那么这里有一个注意点:就是如果是用来做De novo的文库,那么稀释到384孔的每一个小孔里,是3个fg(1 fg = 1 * 10^-15 g)的DNA。而如果是做染色体(单体)基因分型的,则是稀释到每个小孔75个fg的DNA。
之所以做De novo的这个PCR,要用更稀的模板,是因为,不希望一个小孔里面的片段,相互之间有交叠。接下来,做长PCR在做长PCR的时侯,如果是用来做De novo的是做21个循环,而如果是做染色体基因分型的,则是做15个循环。
这个区别,是因为之前的两种反应,所加的起始模板量是不一样的。那么,现在要在PCR的环节当中,通过循环数的不一样,把DNA的最终产量,给拉平。
第三步,Nextera建库、测序
接下来,就用Nextera方法,对扩增好的片段,进行打断,并加上末端标签。
Nextera打断的原理,是用结合了DNA标签的转座酶,和之前扩增得到的10KB的DNA片段进行反应。转座酶,一方面,会把长片段给切断成短的小片段。另一方面,它也会把酶本身结合了的DNA标签,连在切出来的小片段DNA的末端上。这个新加上的DNA标签,就成了接下来PCR扩增的引物结合序列。再接下来,就是加入有P5、P7测序引物序列,同时带有Index序列的PCR引物,进行新的一轮PCR扩增。
那么这一轮PCR扩增的结果,就会把Index序列,和P5、P7测序引物序列都加到扩增出来的DNA片段上。这一轮的扩增完成之后,我们就得到的,就是384个带了完整的接头序列、Index序列的文库。再接下来,就把这384个文库混合在一起,用柱子进行回收。然后,就可以用Illumina测序仪进行测序了。
第四步,组装
测序完成之后,通过Index序列,把384个文库的序列可以分开,然后,分别进行组装。
组装的结果,就是得到了许多个10KB的组装序列。
然后,可以用这10KB的组装序列,再去拼染色体的序列。上面所说,就是Moleculo的合成长序列的测序方法。
要点总结
它的核心技术,就是把一个完整的基因组DNA,分成了384个小份。每一份中,又含了若干个10KB的DNA片段,而这一个小孔的中DNA片段,相互交叠的可能性很小。
所以,在重新组装的时侯,先组装成一个、一个10KB大小的片段。然后,再从10KB的片段,组装成染色体的序列。这个,要比直接从几百个BP的序列,组装成染色体,要容易许多。
总的来说,Moleculo方法,就是把一个大难题,分解成2个相对容易解决的小问题,再进行分步地解决。最后,得到一个我们想要的结果。
欢迎关注oddxix
有趣的灵魂等着你~