伟大的渺小—土壤微生物

微生物组数据挖掘新方法tmap

2019-12-23  本文已影响0人  GPZ_Lab

关键词:
微生物组大数据,population-scale,网络分析,基于拓扑学的数据挖掘新方法

本文提纲:

  • 微生物组大数据分析目前存在的问题
  • tmap可以解决的问题
  • tmap应用实例
  • 总结

发表文章: Genome Biology, 2019; https://doi.org/10.1186/s13059-019-1871-4
软件代码: https://github.com/GPZ-Bioinfo/tmap
tmap软件教程: https://tmap.readthedocs.io/en/latest/

微生物组大数据分析目前存在的问题

随着多组学技术的发展,现有的分析方法往往难以满足当前微生物组日益复杂,规模庞大,且附带着大量表型及环境相关元数据的分析需求。目前主要存在以下几个亟需解决的问题

以上数据分析的挑战对创新可靠分析方法提出新的需求。本课题组开发了基于拓扑学数据分析的tmap软件,提供了一个整合大规模人群样本微生物组数据的分析框架,可以将以下两个微生物组研究的重要方向结合起来:1. 总结微生物组数据规律(pattern discovery);2. 为发现新的科学问题(hypothesis generation)提供线索。

tmap可以解决的问题

通过Mapper算法及网络富集分析,tmap利用样本的微生物组数据构建TDA网络结构,并通过SAFE score量化了样本表型或者物种在一簇样本中的富集程度。基于SAFE score可以实现以下3个分析目的:

tmap应用实例

本研究通过对4个数据集(包括1个合成数据和3个真实世界数据)对tmap方法加以验证,结果表明与传统的线性方法(如envfit, adonis, ADONISM)相比,tmap都表现更好,对非线性关联及潜在规律都有较好的识别。以比利时队列FGFP为例

比利时FGFP队列的简要介绍:

  • 2016年发表在Science,研究内容为健康正常人群的肠道微生物组。
  • 研究纳入了1106个粪便16S rtRNA样本,及样本的69个宿主表型特征,包括了7个metadata类别:社会人口学特征,生活方式,血液指标,健康状况,饮食习惯,肠道健康状况及病史用药情况。文章表明,仅有7.63%的微生物组改变与宿主表型的变化有关。tmap提高了识别并解读population-scale的微生物组-宿主表型关联的能力。

如上图所示,tmap不仅可以较好的复现envfit这种基于线性回归的方法,也在对非线性变化的捕捉上,比envfit更加灵敏。通过对FGFP数据转化的SAFE score分析,可以得到许多原始文章中没有挖掘到的规律和线索。如下图所示,比如两种药物虽然与同一种疾病相关联,但其对微生物组的影响是不同的,具体表现为在网络图上的富集部位不一样。这都是传统线性分析难以得到的。

总结

上一篇 下一篇

猜你喜欢

热点阅读