MDL4Microbiome:通过多模态深度学习提升宏基因组数据
在过去的几十年里,先进的宏基因组测序技术使得对人类微生物组的研究能够发现细菌组成与功能、疾病之间的病理关系。然而相关分析工具在诊断和治疗方面的应用仍需提高其准确性。近日,《Scientific reports》发表了一个新工具:MDL4Microbiome,其通过使用宏基因组序列的各种特征和多模态深度学习模型,在预测疾病状态方面表现出很高的准确性。
MDL4Microbiome是什么?
MDL4Microbiome是一个深度学习模型,利用从微生物组测序数据中提取的特征对疾病状态进行分类。
MDL4Microbiome 示意图该分类器是利用微生物组数据的基本信息构建和训练的。采用了不同的方法来提取特征,即传统的分类学特征、代谢功能特征和基因组水平的丰度。不同的特征被送入多模态深度学习模型。该模型通过留一交叉验证法(LOOCV)进行评估。
多模态深度学习模型的体系结构多模态深度学习模型和简单的深度神经网络模型是用Python(version 3.6.9)实现的。
MDL4Microbiome的性能评估
开发团队使用炎症性肠病(IBD)、2型糖尿病(T2D)、肝硬化(LC)和结直肠癌(CRC)数据集来测试模型准确性:准确度分别为0.98、0.76、0.84和0.97;与经典的机器学习方法相当或更高。此外,开发团队还对选定特征的结果集进行了更深入的分析,以了解其不同特征的贡献。与其他机器学习方法相比,MDL4Microbiome是一种具有更高或相当准确度的分类器。
为了评估模型结构方面的准确性,开发团队使用不同的特征构建了四个不同的模型。与具有单个特征类型的简单DNN分类器相比,多模态神经网络在所有四个数据集上都达到了最佳精度。
ROC曲线和曲线下面积(AUC)所示:与具有单一特征类型的神经网络相比,多模态神经网络表现出更好的性能。特别是对于IBD、LC和CRC数据集,当结合特征并使用多模态深度学习模型时,ROC曲线和AUC值显著改善。
不同特征对性能的影响:分类等级作为特征,越小的等级(从门到种)准确度越高,即在IBD、T2D、LC和CRC数据集中,“门”的准确率最低,而“种”的准确率最高。此外,对于IBD、T2D和CRC数据集,基因组水平的变异特征显示出最高的准确性。生成基因组特征时,参考样本的数量会影响准确性。
与现有模型的精度比较总之,多模态深度学习方法允许结合微生物组不同方面的特征,从而实现宿主表型的高精度分类。后续开发团队还将对MDL4Microbiome开展进一步研究,以确定对诊断疾病的重要特征有贡献的未标记物种。
本文中的代码和模型可以在如下链接获取:https://github.com/DMnBI/MDL4Microbiome
首发公号:国家基因库大数据平台
参考文献
Lee S J, Rho M. Multimodal deep learning applied to classify healthy and disease states of human microbiome[J]. Scientific reports, 2022, 12(1): 1-11.
图片来源于Scientific reports官网和参考文献,如有侵权请联系删除。