利用三代测序来研究宏基因组的初认知

2020-04-13 本文已影响0人生信阿拉丁

宏基因组 ( Metagenome)是1998年提出的概念，也称微生物环境基因组（Microbial Environmental Genome）, 或元基因组，其定义为“the genomes of the total microbiota found in nature” , 即环境中全部微小生物遗传物质的总和。

宏基因组学是指研究微生物群体组成、功能基因、代谢产物的学科，以揭示微生物组组成结构、微生物组与宿主、微生物组内的相互作用关系。微生物在自然界中无处不在，种类繁多，其研究应用在医学，农业，工业，生物能源等各个领域。

研究方法

微生物组的研究方法包括培养组学、扩增子（16s/18s/ITS）、宏基因组学、病毒组学、宏转录组学、宏蛋白组学及宏代谢组学。从一种组学单独进行研究、到多组学结合研究，应用十分广泛。其研究的技术手段也是不断发展的。

微生物组的研究经历了三个阶段：

传统方法是依赖复杂耗时的选择性培养，染色镜检等技术，由于我们周边大多是不能培养的微生物，其检测到的微生物十分有限。
随着分子生物学的发展，多重PCR，扩增子测序等一代测序技术的应用，能检测到相对更多的微生物，但对于低丰度的物种，仍然无法检测到。
高通量技术解决了这一问题，其可以无偏性地反映完整微生物组信息，涵盖丰富的功能，遗传和进化等信息，甚至帮助发现新的物种，弥补了以往在微生物发现及分类中存在的大量间隙。

宏基因组高通量测序技术平台比较如下：

三代宏基因组的研究用于实现更准确的微生物物种分类以及更加全面的功能基因组注释，解决目前二代技术鉴定种群较少、优势菌种基因组组装质量较差、核心基因组分功能信息分析不全等缺点。

三代宏基因组分析思路

1 三代宏基因组的基本分析包括：

数据质控
CCS reads
使用软件Canu，HGAP等组装，也可不经过组装直接进行分析
基因预测，物种注释，功能注释分析
下游进行物种及基因结构比较分析

2 宏基因组基本分析步骤如下图所示：

3 常用分箱工具

宏基因组测序可以通过分箱（binning）方法组装出单菌基因组。

宏基因组分箱（Binning）是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程。

4 基因预测与注释常用软件

5 常用数据库

应用案例

1 二+三测序研究病毒基因组

测序策略：Illumina Hiseq 2500 + Oxford Nanopore Technologies: ONT
DNA提取及建库测序过程如下图所示：

其中Illumina数据使用metaSPAdes组装，ONT数据使用Canu进行组装。

该文将长读长测序应用于病毒宏基因组学。长序列组装与短序列组装结果对比如下图所示，如图中灰色区域，短序列组装的结果中存在中断的情况；而文章中的混合组装，利用长读长序列可以校正组装中的错误，将长读长序列和短序列相结合，成功地克服了对微多样性具有重要生态意义的、普遍存在的病毒分类单元中病毒簇的大范围基因碎片问题。

此外，长读长测序能够更好地解析与宿主-病毒相互作用相关的高变基因组岛的信息，为改善基于序列的病毒生态学提供了一个额外的工具。表明病毒宏基因组的长序列测序有可能显著提高我们对全球海洋、人类微生物群落和农业中病毒生态的理解。

2 二加三测序研究生物能源

测序策略：Illumina Miseq 16s rRNA + PacBio RS II
PacBio数据采用HGAP软件进行组装，测序数据及组装信息如下表所示：

不同数据鉴定微生物的群落特征如下图，其中二代数据鉴定种类较多，三代数据中放线菌门丰度最高。

对鉴定出的冷活性候选基因与数据库中嗜冷/亲冷/嗜热酶一起构建系统发育树，如下图，探究系统发育的相似性和差异性。结果说明冷活性木质纤维素水解酶在南极土壤中存在并不严格与自然条件相关。

该文章研究了南极富含有机质土壤（KS 2-1）中以冷适应微生物为靶点的宏基因组，通过测序来挖掘木质素和纤维素酶。表明放线菌门木质纤维素分解酶在KS 2-1基因组中的高丰度表明放线杆菌在南极土壤木质纤维素降解中起重要作用，南极土壤基因组可以获得编码冷活性木质纤维素降解酶的新基因，用于生物技术和工业应用，并提供了冷活性酶候选清单，它们能够在相对较低的温度下协同木质纤维素水解，用于微生物生物技术生产生物燃料和增值化学品。

3 二加三加HIC宏基因组多组学

测序策略：Illumina Nextseq sequencing +PacBio RSII and Sequel
数据的获取及组装如下图所示，其中Illumina数据使用Megahit软件进行组装，PacBio数据采用Canu进行组装。

对组装后的contigs进行Binning，如下图所示。HIC数据使用Proximeta分bin，WGS数据使用MetaBat分bin；基于ProxiMeta和MetaBat的分bin结果，使用DAS_Tool流程把每个组装的bins合并起来。通过筛选得到中等质量的分bin结果及高质量的分bin结果用于下游分析。

分bin效果进行对比如下图，说明不同软件表现不同，相同软件不同数据间分bin效果也存在差异。

对不同数据在分类上及在抗性基因（ARGs）检测上的表现展示如下，相较而言二代数据鉴定的种类更全，三代数据发现更多ARG基因。

该文章利用长读长的三代测序技术结合 Hi-C 技术手段，完成牛瘤胃微生物的高质量组装，实现病毒-宿主-抗性基因（ARGs）的关联分析，直接检测微生物组样本中潜在的基因水平转移（LGT）。将 Hi-C 技术应用到微生物领域，到现在越来越多的研究中采用这种新的微生物组研究方法，获取全面写实的微生物组信息。从单菌基因组组装，到环境样本中微生物的互作，基因交流研究——Hi-C 技术应用于宏组学研究突破了传统宏组学技术达不到的研究界限。

总结

小编觉得，当样本比较珍贵或需要进行深度挖掘物种信息时，可以选择三代宏基因组进行测序。当研究的是低GC和高重复的物种时要增加测序深度，可以选择CCS。三代测序可获得更多的开放阅读框，对物种分类是非常重要的。不同数据不同软件技术间存在互补，可以根据自己的研究需要进行选择。

目前多组学研究是微生物组研究的趋势。从多组学挖掘数据，为全面了解微生物的作用机制及代谢网络提供证据。微生物的研究面临的挑战是要从相关关系到因果关系进行突破，目前停留在微生物与疾病或功能相关关系上的研究生是远远不够的，建立某种微生物或某种基因的改变与疾病或某种功能之间的因果关系。

作者：metayan
审稿：童蒙
编辑：amethyst

该文来源于“生信阿拉丁”，关注公众号，第一时间查收“新款”生信学习干货。