STENSL:使用公共数据进行微生物溯源与环境选择

2024-07-22 本文已影响0人 zd200572

feast团队的小幅更新之作，比较可惜的是由于发表的杂志影响不大，迄今引用只有个位数，相信这好酒香一定会飘出深巷子的。
微生物源追踪分析已成为一种广泛的技术，用于表征复杂微生物群落的特性。但是，此分析目前仅限于在特定研究中采样的源环境。为了将范围扩大到单一研究之外，并允许使用大型数据库和存储库（例如地球微生物组项目）探索源环境，需要一个源选择程序。当考虑的潜在来源数量众多时，这种程序将允许区分促成环境和令人讨厌的环境。在这里，我们介绍了 STENSL（microbial source Tracking with ENvironment SeLection），这是一种机器学习方法，通过执行无监督源选择和实现对潜在源环境的稀疏识别来扩展常见的微生物源跟踪分析。通过将稀疏性纳入潜在源环境的估计中，STENSL提高了真实源贡献的准确性，同时显着减少了非贡献源引入的噪声。因此，我们预计，源选择将增强微生物源追踪分析，从而能够从公开可用的存储库中探索多个源环境，同时保持统计推断的高精度。

算法概述

模拟数据测试

使用模拟数据将 STENSL 与 FEAST、SourceTracker2 和 RAD 的准确性进行比较，发现STENSL是唯一能够一致地估计真实来源贡献水平的方法，在高达90%的正未知贡献中，均方误差（MSE）显着降低。

模型数据测试

从三名人类受试者和三名小鼠受试者的消化系统获得的微生物样本的混合物，组装了 24 个体外Sink，每个Sink由两到三个不同混合比例的微生物样品组成。在对这组贡献源和汇进行微生物源跟踪分析时，我们添加了一组 50 个额外的非贡献源。使用STENSL 与 FEAST、SourceTracker2 和 RAD 的准确性进行比较。与我们的仿真结果类似，我们发现在真实数据中，STENSL的准确度明显高于其他方法。

人类微生物组计划样本的源选择

使用唾液微生物组样本，包含舌头、上颚和颊粘膜在内的几种口腔获取样本，候选来源定义为来自唾液样本的焦点受试者的所有微生物组样本（不包括唾液），以及来自88个个体的15个身体部位的所有其他可用微生物样本。使用STENSL 与 FEAST、SourceTracker2 和 RAD 的准确性进行比较。

结果STENSL将总共43.1%归因于属于采集水槽的焦点受试者的其他口腔微生物组样本（17.2%来自口腔粘膜，15.3%来自舌背，10.6%来自喉咙），而SourceTracker2仅将4.9%归因于属于采集水槽的重点受试者的其他口腔微生物组样本（3.6%来自口腔粘膜， 0.6%来自舌背，0.7%来自喉咙）。此外，STENSL估计有26%的未知贡献，而估计来自其他个体的大多数非贡献来源的贡献为零。
总之，STENSL通过最小化有害源（无贡献烦的）的贡献并突出实际的贡献源，与可比方法相比，显着提高了微生物源追踪分析的准确性。通过执行对数百个有害源存在的鲁棒性源选择，STENSL可以使用公开可用的存储库进行有效的源探索，从而增强微生物源追踪分析。
软件使用
由于是feast团队的更新，用法和feast一致啦，这种左右手互搏，自己打败自己的方法，值得尊敬呀！
不过仔细看了下，这个提交一直没合并到主分支上，不确定为什么呢？

STENSL_example.R

feast.result = FEAST(
    C=as.matrix(otus),
    metadata=meta,
    EM_iterations=MAX_ITERS,
    COVERAGE=COVERAGE_DEPTH,
    different_sources_flag=0,
)

stensl.result <- STENSL(
    C=as.matrix(otus),
    metadata=meta,
    EM_iterations=MAX_ITERS,
    COVERAGE=COVERAGE_DEPTH,
    l.range=c(0.1,1,10)
)

欢迎交流你的想法！

STENSL:使用公共数据进行微生物溯源与环境选择

模拟数据测试

模型数据测试

人类微生物组计划样本的源选择

猜你喜欢

热点阅读