序列组装
序列组装是测序的下游工序,但在日益多样化的基因组学研究中,这不是必须的。尽管如此,进行序列组装无疑能够帮助我们更精确认识物种的遗传信息,唯有高质量组装的完成,方能做进一步、更全面和深层次的探索。
在《一代测序》中,由于组装对测序具有指导意义,已将两种主要的组装策略进行了介绍。鸟枪法(shotgum method)和克隆重叠群法(clone contig method)分别是以“先测后定”与“先定后测”的思想开展的。结合图谱中的标记物,便能实现较准确的拼接。然而,无论是哪种方法,进行单次的克隆文库测序,都无法将同一染色体所有片段无缝衔接,而存在大大小小的“序列间隙”与“物理间隙”。“序列间隙”是那些测序时遗漏的序列,这些序列仍保留在尚未挑选到的克隆中。“物理间隙”则是构建文库时被丢失的DNA序列,它们可能从已知的克隆群体中永久性地消失了。“物理间隙”产生的原因可能是:(1)由于特殊的碱基组成,如染色体着丝粒区的高度重复序列缺少合适的酶切位点,难以获得大分子DNA克隆(克隆重叠群法);(2)在克隆载体中,高度重复序列很不稳定,在扩增中丢失了;(3)某些基因的表达产物对宿主菌具有毒性,因此转染到宿主上容易将其杀死;(4)序列装载在载体上若形成反向重复,宿主可能无法对装载有外源DNA的载体开展复制。
对于“序列间隙”可以通过分子杂交的方法填补。即设计已知间隙两端的寡核苷酸探针,将某间隙其中之一端的寡核苷酸加入所有克隆,筛选阳性克隆,再在阳性克隆中加入该间隙另一端的探针,若又存在阳性,则对两次阳性的克隆进行测序,便填补了这一间隙。
为了封闭“物理间隙”,可以用一种不同的载体制备第二个克隆文库,这回选择不同的载体类型,能将原先对上一种载体有害或导致不稳定原因引起的部分“物理间隙”填补。仍然是用分子杂交方法筛选阳性克隆。实际上,受技术限制,一代测序时代想完全填补“物理间隙”极其困难。
此前,留的一个问题:基因组作图并不是测序组装之必须,那么序列组装对图谱的依赖程度如何呢?
在一代测序与二代测序时代,由于序列读长短,很明显,串连重复序列对组装具有很强的迷惑性,使得组装这些片段极为困难,时常导致错误组装,因此图谱便显得极为重要,利用分子标记进行校正,让各片段一一对应起来。但当时也认为任何小于5Mb的小型基因组序列,包括切割成克隆重叠群的大片段,即使在计划开始前不知道基因组的任何信息,也能基于鸟枪法实现组装。
这种局面在“单分子实时测序”技术发明后有所改观。由于是单分子测序,加之实验材料的改进,使其规避了早期二代测序的弊端,序列读长大大增加。例如Pacific BioSciences SMRT RS测序技术的平均序列读长在10kb以上,最长可达40kb。如此一来,只需将重叠区设置长一些,使得串连重复含括在一个读长之内,便能在没有图谱与标记物的情况下实现快速组装。不得不说,如今组装的许多高质量基因组都是未先绘图而直接进行测序的,然后再将拼接好的序列对应于染色体上。
参考文献
[1] T. A. 布朗. 基因组3[M]. 第一版. 北京: 科学出版社, 2009.
[2] 杨金水. 基因组学[M]. 第2版. 北京: 高等教育出版社, 2007.