微生物信息学

NC | PRISM4基于微生物基因组序列预测次生代谢产物的结构

2020-12-06  本文已影响0人  胡童远

文献信息

标题:Comprehensive prediction of secondary metabolite structure and biological activity from microbial genome sequences
中文:从微生物基因组序列中综合预测次生代谢产物的结构和生物活性
杂志:NC
时间:2020
单位:麦克马斯特大学

摘要

迫切需要新的抗生素来解决日益迫近的全球抗生素耐药性危机。历史上,临床使用抗生素的主要来源一直是微生物的次级代谢。微生物基因组测序揭示了大量未被发现的天然抗生素。把序列信息与编码分析的化学结构联系到一起的难阻碍了这些分子的提取。在这里,我们提供了PRISM 4,一个全面的预测基因组编码的抗生素化学结构的平台,包括目前临床使用的所有种类的细菌抗生素。化学结构预测的准确性使机器学习方法的发展能够预测编码分子潜在的生物活性。我们使用PRISM 4来绘制从培养分离菌和元基因组数据集收集的超过10,000个细菌基因组中的次生代谢产物生物合成图,揭示了数千种被基因编码的抗生素。
PRISM4网址:http://prism.adapsyn.com](http://prism.adapsyn.com/

Github:https://github.com/Adapsyn/prism-4-paper

一、基于细菌基因组预测次级代谢物化学结构


a PRISM 4的示意图概述。微生物基因组序列使用1,772 HMMs的库进行注释,次级代谢物BGCs使用基于规则的方法进行识别。利用618个虚拟裁剪反应库,实现了基于图的组合化学结构预测。
b 在PRISM 4中所包含的HMMs、虚拟裁剪反应、底物和糖的总数。
c PRISM4预测的新增次生代谢物家族化学结构举例。

二、PRISM4产生高精度化学结构预测

a BGCs手工黄金标准集(n = 1,281;由PRISM 4、antiSMASH 5和NP.searcher 鉴定。
b 每个程序预测的至少有一个结构的金标准集内的bgc的数量。
c 所有四个程序生成的至少一个预测结构的金标准BGCs子集的真结构和预测结构之间的中位数Tanimoto系数(n = 385)。
d 每个程序真结构和预测结构的官能团内容的d Jensen-Shannon散度。误差条显示bootstrap重采样的标准差。
e 中值和最大Tanimoto系数之间的真实和预测结构PRISM 4产生的金标准集,生物合成家族,并比较预测结构和非匹配的BGCs(“随机对”)之间的中值Tanimoto系数。第一,中位Tanimoto系数与随机Tanimoto系数比较有统计学意义(*p < 0.001; * p < 0.01;p < 0.05,双侧t检验)。底部是金标准集中每个家族的bgc数量(n)。盒图显示了中位数(水平线)、四分位范围(铰链)以及不超过1.5倍四分位范围(胡须)的最小值和最大值。

三、PRISM 4显示了3759个完整细菌基因组中次生代谢产物的生物合成。


a-b 在由生物合成科(a)和生产生物门(b)组成的3,759个被破坏的完整细菌基因组中,被PRISM 4、antiSMASH 5或这两种方法预测出至少一种化学结构的BGCs的数量,在基因组分类学数据库(GTDB)中被分类。
c-g 用PRISM 4和antiSMASH 5预测的产物从bgc中预测的n = 4220对次生代谢物的结构特征5空间的利平斯基法则中预测结构的c % 20。误差条表示样本比例的标准误差。
d 预测结构的分子量。预测结构的e Bertz拓扑复杂性指数21。
f 预测结构的内部多样性,用中位Tanimoto系数量化到集合中所有其他预测结构。
g 预测结构与已知天然产物的相似性,用中位Tanimoto系数量化到天然产物图谱中已知天然产物的集合。盒图显示了中间值(水平线)、四分位范围(铰链)、最小值和最大值不超过四分位范围(胡须)的1.5倍。源数据作为源数据文件提供。

四、定量预测结构-活性关系(QPSAR)模型揭示了数千种基因组编码抗生素。


a 用于支持向量机(SVM)模型的接收器工作特性(ROC)曲线在生物合成基因簇或棱镜预测结构的化学指纹中发现的Pfam域上训练。
b 分布bgc预测生产次生代谢产物的抗菌、抗肿瘤、免疫调节、抗真菌、抗病毒、多个或没有生物活动10121年集合完成或metagenome-assembled原核基因组,通过生物合成的家庭(左)或生产生物门(右),在基因组分类法分类数据库(GTDB) 。
cd 用一致流形近似和投影(UMAP)可视化预测结构化学空间,生物活性(c)或基因组起源(d)着色。
e 相对于完整的细菌基因组,根据元基因组组装基因组(MAGs)中预测的生物活性对次生代谢产物的富集或消耗。

上一篇下一篇

猜你喜欢

热点阅读