病毒分类新方法超详细解读

2020-09-25 本文已影响0人美格基因

原标题：未培养原核病毒基因组通过基因共享网络进行物种分类

Taxonomic assignment of uncultivated prokaryotic virus genomes is enabled by gene-sharing networks

作者：Ho Bin Jang， Benjamin Bolduc，Olivier Zablocki等

期刊：Nature Biotechnology

影响因子：31.864

发表日期：2019-01

推荐指数：★★★★★

阅读时长：20分钟

一、文章摘要

每个环境中的微生物组包含大量未培养古菌病毒和细菌病毒，但是由于缺乏一个通用的的分类方法使得病毒研究受到了阻碍。我们提出vConTACT v.2.0,这是一个基于网络的应用程序，利用全基因组共享基因进行病毒分类，它集成了基于距离的层次分类和所分类预测的置信度评分。利用vConTACT v.2.0，我们获得了与目前国际分类学委员会为NCBI中病毒参考序列物种信息几乎一样的分类结果（高达96%准确率）。我们使用vConTACT v.2.0对存在于病毒RefSeq中1346个先前未分类的病毒进行分类，其中820种自动生成高可信度的属水平分类。我们应用vConTACT v.2.0分析了15280个全球海洋病毒基因组片段，并且这些数据中31%可以进行物种分类，这表明我们的算法可以应用于非常大的宏基因组数据集。我们的分类工具可以自动化并应用于来自任何环境的宏基因组病毒分类。

二、研究背景

细菌和古菌在海洋、土壤生态系统的营养和能量循环中有重要作用，并且在人类健康中扮演重要角色。感染细菌和古菌的病毒通过杀死、代谢重组或基因转移来调节它在这些生态系统中的角色。然而，由于缺乏通用的病毒基因和方法进行物种分类和比较研究，因此在生态系统尺度上对病毒动力学的了解受到阻碍。例如，病毒没有一个单一的、通用的标记基因，因此不可能实现微生物基于16S rRNA的系统发育和操作分类单元（OTUs）的分析。

随着病毒基因组数据库的快速增长，国际病毒分类委员会（ICTV）提出共识声明，建议从“传统分类标准”（例如，病毒形态学、单基因或多基因系统发育）转为以基因组为中心的方法，也许某天可以大量的自动化进行病毒分类。

鉴于病毒发现的速度，因此迫切需要一种病毒分类的方法。数十万宏基因组产生的病毒基因组和大量基因组片段（IMG/VG中超过700000），远比NCBI基因库数据库中现有的34091个原核病毒基因组要多。

本文介绍的vConTACT v.2.0，有一个新的集群算法、集群的置信度评分和网络分析，该分析是自动化，并且改进了分类分配，以及可应用于更大的数据集。因此更有应用前景。

三、结果分析

1、介绍vConTACT v.2.0

vConTACT的目标是自动将病毒基因组分配到已建立的或新的分类单元中，并评估与ICTV分类一致性（Fig. 1）。然而，在目前的ICTV原核病毒分类中，属级以上的分类零星的用于亚科和目，因此该应用特别强调病毒在属水平分类。

在一个基于网络的基因组分类学中（Fig. 1a），相关基因组作为一组节点出现，通过病毒簇多边强烈相关性连接。在v.1.0版本中，约75%的病毒簇与已建立的ICTV属相对应，但存在约25%不一致。病毒簇的不一致可能由于抽样不足导致的聚类基因组没有近缘属，或者多个具有相同基因的ICTV属的不正确重叠，亦或者多个ICTV属错误的分配到一个结构化的病毒簇（Fig1.b）。

为了解决这些问题，我们使用了一种新的聚类算法，为分级分类建立基于置信度评分和距离的分类分离单元，并使用一个大规模病毒宏基因组数据集对可扩展性和稳定性进行优化和评估。总体来说，在形成马尔科夫算法聚类蛋白集成群后，我们优化了蛋白簇，建立了自动化的两步过程，接着使用ClusterONE(CL1)来定义病毒簇，而不是用v.1.0版本中的马尔科夫模型，接下来使用层次聚类对网络中有问题的区域进行细分（Fig. 1b）。

Fig.1 Virus genome classificationvisualized as networks

2、比较vConTACTv.1.0 and v.2.0.

为了评估vConTACT v.1.0 and v.2.0.的聚类性能，我们对具有ICTV属水平分类的940个原核病毒基因组一致性进行量化。聚类性能由精确度（accuracy, Acc）和分离（separation, Sep）的综合性能评分来评估（Fig. 2a）。每个度量的值在0-1之间，1表示完美的聚类精度和/或覆盖率。

v.2.0.版本的CL1结合层次聚类，整体性能提高28%。为了评估v.2.0版本中那些变化有助于提高性能，进一步优化了v.1.0基于马尔科夫模型的病毒簇，并发现在膨胀因子（IF）为7的情况下，可以实现几乎相同的性能（Fig. 2a），并且能够预测更多的病毒蛋白簇。v.1.0可以将940个病毒基因组组成180个病毒簇，而v.2.0.的CL1确定了157个病毒簇。这些研究结果表明，改进聚类算法和添加层次聚类对于提高病毒簇自动分类是至关重要的。

Fig. 2 Performanceof vConTACT v.1.0 and v.2.0 on prokaryotic virus genomes.

3、vConTACTv.2.0可分析基因组关系

我们探测了v.2.0是否可以解决病毒簇不一致性的问题（Fig. 1b）。其中55%的ICTV属是抽样不足的，这些基因组在共享网络中表现为较弱的连接（Fig. 1b,顶行），在v.1.0版本中抽样不足的病毒簇占64%（28/44），并且通过增加IF值不能解决该问题（Fig. 2b,d）。而v.2.0使用相同的输入数据，正确的将15个属的38个基因组放入15个与现有分类一致的病毒簇中（Fig. 2c,d）。其次，我们评估了v.2.0解决重叠病毒簇的问题（Fig. 1b），该方法确定了9个重叠病毒簇，包含11个ICTV属中30个病毒。重叠病毒簇与高水平基因转移有关，因此这些病毒簇中的大多数病毒被归为具有高基因变异（Fig. 2e）。

结构化病毒簇（Fig. 1b,最底部），这些基因组由于所有基因组有许多共享基因或基因模块，这些基因共享网络都放置在单个病毒簇中，但由于基因组的子集也共享额外的基因，根据这些基因又分布到多个ICTV属中。在v.2.0网络分析中，31个不一致的病毒簇中有23个结构化病毒簇（Fig. 3a,b）,包含86个属。其中自动化v.2.0版本中解决了23个结构化病毒簇中的6个的30%（86个中的26个属）（Fig. 3c）。

Fig.3 Application of the hierarchical decomposition to discordant Vcs

4、vConTACT v.2.0应用于大病毒组数据集

为了评估该算法的可扩展性，我们从全球海洋病毒组（GOV）数据集中以10%的增量向我们的参考网络中添加了15280个病毒基因组和大基因组片段。最终的网络由16960条序列组成（Fig. 4a）我们使用“变化中心”（change centrality，CC）指标评估了GOV数据集向网络的增量添加是否会导致节点连接的变化（Fig. 4b）.我们还使用集群敏感性、精确性以及阳性预测值评估了v.2.0集群与ICTV属之间的一致性（Fig. 4c）.大部分添加的数据在最初温和的变化（CC=0.4）,但整个数据集最终会趋于稳定，因为大多数数据集的CC值在0-0.1之间。在精确性方面也观察到类似的趋势（Fig. 4c）.这表明v.2.0可以扩展应用于数千条序列，并且我们的参考网络集群对大规模数据添加具有很强的稳定性。

Fig.4 Adding the global Ocean Virome to NcBI Viral RefSeq

您可能还喜欢：

文献阅读必备技巧，终于从阅读痛中解脱！

代谢组IF5-8分文章怎么写，发文思路拿走不谢！

病毒分类新方法超详细解读

猜你喜欢

热点阅读