测序故事:从框架图到染色体水平组装(一)

2022-04-27  本文已影响0人  凌恩生物

自然界中的微生物包括细菌、真菌、病毒、藻类等,他们无处不在,却与人类的生产生活密不可分,无论是疾病研究、还是环境污染,再到农业生产或食品发酵……看上去人类生存的各个方面都与微生物的存在与研究有着千丝万缕的联系。

高质量的微生物基因组是研究微生物生理生化机制及功能贡献的基础,伴随着微生物领域研究的深入,对菌株的代谢能力、菌株之间的表型差异、水平基因转移以及微生物的比较基因组领域的关注度不断提升,越来越多的研究提出了对更高品质微生物基因组的需求。

图1 几种形式的基因水平转移过程

在继往的微生物基因组研究中,大多采用主流的NGS测序平台开展测序及基因组的组装注释。但受限于二代测序的读长限制,微生物基因组中的一些较大的重复区域、高GC含量区域都很难实现测通或准确组装,单纯利用NGS数据进行的基因组组装,难免存在较多的Gap和组装错误,只能获得一些组装出的较大基因组片段(Scaffolds),实现基因组框架图的组装。

图2  某组装不完整的细菌基因组框架图

伴随着测序技术的进步和三代测序平台的应用发展,凌恩生物率先提出了0N 0Gap的细菌基因组组装完成图标准。在该领域研究中,使用NGS测序结合三代测序平台的Long-reads,取长补短,可以获得高品质的细菌基因组完成图:一方面利用二代测序平台的低成本高准确度,通过确保微生物基因组测序的深度和准确度,实现基因组框架构建的精准;另一方面利用三代测序技术的超长读长,来覆盖和填补微生物基因组上较大跨度的难组装区。此外,利用三代数据组装后的基因组,通常需要利用二代数据进行校正。

图3 含有多种注释信息的细菌基因组完成图(圈图)

此外,在一些研究中Long-reads测序技术兼顾核基因组研究的同时,亦能获取核区外基因组的信息——在细菌基因组研究中,结合三代测序数据,亦可以获得质粒的基因组信息——质粒基因组在微生物的遗传物质中属于较活跃也是研究较多的功能区,在很多细菌研究中,质粒基因组也扮演着重要的功能角色,其中的一些基因也会影响菌株的抗性或致病性等重要生物学功能,更有甚者通过质粒可以实现跨越个体间的基因交流。因此,研究质粒基因组,可以为细菌的进化、环境适应性及基因的水平转移研究提供切入点和直接证据。

由于细菌基因组扫描研究的结果是组装获得的scaffold序列,而细菌胞内无论是否包含质粒、包含几个质粒,只要是胞内的遗传物质,都可以通过组装获得序列片段,是不易区分这些序列是来源于核区的基因组还是质粒基因组的;如果是多质粒的物种,更无法核实序列具体来源于哪一个质粒,这是细菌基因组扫描研究技术本身的局限性。在三代测序技术应用于微生物基因组研究后,long-reads技术实现了对基因组的良好组装,可以获得完整的细菌(核区)基因组组装结果,如此一来,很容易界定质粒基因组,甚至可以将质粒基因组也组装到完成图水平——这极大程度的助益了细菌基因组的深度功能信息挖掘,也进一步带动了质粒基因组研究的热度。

图4  某细菌的基因组完成图和它的3个质粒基因组的完成图(圈图)

另有一些大型复杂的细菌类群研究,如链霉菌、放线菌等——虽然这类细菌的基因组结构极为复杂,很难实现完成图组装,但结合三代测序的long-reads技术依旧可以大幅提升组装质量,进而提升下游基因功能研究的准确性。

图5  利用二代结合三代测序技术对某深海放线菌基因组的功能元件开展深入研究

在真菌和病毒基因组研究中,同样存在着类似的问题。基于NGS的short reads测序组装很难覆盖到基因组的复杂区域,只有结合Long-reads测序技术才能有效提升这部分基因组的组装效果。三代长片段测序技术的不断进步和成本压缩,使三代测序在真菌及病毒基因组研究中的应用也变得逾加广泛——NGS技术联手Pacbio的Long-reads技术,同时结合三维技术组Hi-C技术:将短片段组装成具有高可信度的长片段,再结合基因组的空间构象信息——我们甚至可以获得真菌的染色体水平组装。与继往单纯的基于short-reads技术的组装结果相比,基因组组装的完整性及准确性得到了跨越式的提升。

图6  两株猴头菇的基因组组装结果比较,其中CS-4为二代测序+三代测序组装获得的结果

在现实研究中,也遇到过这样的状况:由于早先的三代测序技术存在较高的单碱基错误率和成本较高的问题,一般都是采用二代数据对三代的测序结果进行较正。但如果碰到二代数据覆盖不均匀的情况,那么在二代数据无覆盖或低覆盖的区域就无法进行这个校正过程(针对微生物样品建议二代的矫正数据的深度在100X以上)。

虽然目前针对微生物基因组的研究,准确性和性价比双重考虑之下,二代结合三代的研究手段依旧是主流,但技术的不断进步也在推动研究方法的进步:相较于之前的三代测序技术,PacBio HiFi数据本身数据质量很高,因而利用HiFi reads进行组装后的基因组准确度会非常高,无需再进行二代数据的比对矫正——利用HiFi数据对细菌/真菌基因组进行测试,即便在未经过polish的情况下,组装后的基因组QV均在50以上,基本实现了无二代数据也可以达到非常高的精准度水平。

上一篇下一篇

猜你喜欢

热点阅读