HUMAnN
微生物群落的研究是了解环境和宿主健康的关键。随着高通量测序技术的发展,宏基因组和宏转录组分析为我们提供了探索微生物多样性和功能的新途径。HUMAnN(The HMP Unified Metabolic Analysis Network)软件套件便是在这一领域的重要进步之一。
HUMAnN的核心是将微生物群落的分析提升到了一个新的水平——考虑了微生物群体的贡献多样性。与物种丰富度不同,贡献多样性关注的是功能层面:一些功能在整个群体中普遍存在,而另一些功能可能只由少数物种贡献。也就是通过MetaPhlAn组件分析物种构成,并对UniRef和MetaCyc进行比对分析,描述群体成员的代谢潜能,以此回答微生物群体成员是什么,以及可能在干什么的问题
文档
humann3 · biobakery/biobakery Wiki (github.com)
原理:
HUMAnN软件类似于一位熟练的果汁分析师,它的任务是在复杂的宏基因组“果汁”中,不仅要识别出所有的“水果”(微生物物种),还要分析出每种“水果”(物种)在“果汁”中的比例,并且要详细了解每种“水果”对整杯“果汁”味道(微生物群落的功能)的贡献。
-
样本准备:
就像对果汁进行分离,HUMAnN需要将宏基因组数据准备好,去除杂质,保留需要分析的微生物DNA序列。 -
物种识别:
然后,软件会识别出数据中包含的各种微生物物种,就像分析师识别出果汁中的每种水果。 -
功能注释:
HUMAnN进一步分析每个微生物的基因,确定它们可能执行的功能,这就像分析师确定每种水果可能提供的味道和营养成分。 -
代谢途径分析:
最终,软件会分析哪些代谢途径在工作,以及它们的活跃程度,相当于分析师评估每种水果对果汁风味的影响。
HUMAnN的特点和应用
HUMAnN利用分层(tiered)策略和泛基因组数据库,快速且准确地为宏基因组和宏转录组数据提供物种和功能的组成信息。下面是HUMAnN的几个特点:
- 泛基因组比对: 它利用MetaPhlAn和ChocoPhlAn数据库来识别已知物种,并对未分类的序列进行翻译搜索,以确定基因家族和生物通路。
- 多级别的结果: 结合UniRef数据库和MetaCyc通路,HUMAnN提供从基因组、基因到通路层面的综合分析。
- 用户友好的界面: 通过简单的命令行操作,用户可以轻松地输入宏基因组或宏转录组数据,并得到处理结果。
- 高效的序列比对: 采用Bowtie2和Diamond工具,HUMAnN加速了核酸和蛋白水平的序列搜索。
HUMAnN 3.0分析过程:
- 使用MetaPhlAn 3识别群落物种;
- 使用bowtie2将reads映射到ChocoPhlAn的pangenomes数据库;
- 使用DIAMOND将未映射的reads与uniref90蛋白数据库比对;
-
计算gene families、pathways abundance 、coverage。
image.png
image.png
补充
上面的数据库之中MetaPhlAn和 UniRef,MetaCyc是比较重要的数据库,在此做简要介绍
MetaPhlAn
MetaPhlAn(Metagenomic Phylogenetic Analysis)是一个用于高效率分析宏基因组样本中微生物组成的计算工具。它可以快速准确地识别出样本中存在的细菌、古菌、病毒和真菌物种。
主要特点
- 特异性标记基因: MetaPhlAn使用了数万个特异性标记基因来识别微生物物种,这些标记基因是从数千个公共可用的基因组中精心挑选的。
- 高速分析: 相较于全基因组映射,MetaPhlAn的方法大大减少了计算时间和资源。
- 层级分辨率: 可以提供从属种到属、科、目等不同分类水平的微生物组构成。
- 更新的数据库: MetaPhlAn的数据库定期更新,以包含新发现的物种和基因。
UniRef
UniRef(Unified Reference protein sequence database)是UniProt提供的一系列蛋白质序列数据库,旨在提供全面、非冗余的蛋白序列资源。UniRef数据库通过合并相似序列来减少数据冗余,加快序列比对速度,同时保持序列信息的丰富度。
主要特点
- 非冗余: UniRef数据库包含三个不同级别的非冗余蛋白数据集,分别是UniRef100、UniRef90和UniRef50。这些数据集按照序列相似性合并,90%或50%是指序列相似性的比例。
- 覆盖广泛: UniRef聚合了UniProt数据库中所有的蛋白质序列,包括已注释和未注释的序列。
- 功能信息: 蛋白质条目包含功能注释,如酶活性、生物学途径和互作网络。
- 高效的搜索: 相比全序列数据库,UniRef提供了更快的序列比对和搜索。
MetaCyc数据库
MetaCyc是一个详尽的数据库,它包含了多种生物体中已知的代谢通路。这个数据库是由SRI International的生物信息学研究组(Bioinformatics Research Group)所创建和维护的。MetaCyc数据库中包含的代谢通路是通过文献研究的方式经过严格筛选并手动注释的,确保了信息的高质量和可靠性。
代谢通路是生物体内,一系列酶催化反应的连续过程,这些过程共同协作以转换分子为另一种分子,通常涉及能量的产生和消耗。这些通路是细胞和生物体获取能量、合成重要分子以及分解废物的基本方式。
MetaCyc数据库的主要特点和用途包括:
- 通路的多样性:它覆盖了从细菌到植物和动物的多种生物体中的数千种代谢通路。
- 详细的注释:每条通路都伴有详细的参考信息和文献出处,确保了数据的准确性。
- 生物化学信息:数据库提供了相关酶的详细信息,如活性中心、催化机制以及抑制剂和激活剂。
- 通路组织:MetaCyc中的通路被组织成层次结构,这样用户可以根据其生物学功能和相互关系来浏览它们。
- 研究和教育工具:它是研究人员理解生物代谢过程、进行宏基因组分析以及教学的重要资源。
- 代谢工程和生物技术:MetaCyc为代谢工程和合成生物学提供了宝贵的信息,研究人员可以利用这些信息来设计和优化生产代谢物的生物路径。
在HUMAnN这类宏基因组分析工具中,MetaCyc数据库被用来帮助注释宏基因组数据中的代谢通路,从而让研究者能够识别和量化在微生物群落中发生的具体生化过程。通过这样的分析,研究者可以了解不同微生物如何通过他们的代谢活动相互作用,并对它们所处环境的影响有一个更深入的理解。
应用
UniRef数据库是进行蛋白质功能预测、系统发育分析和宏基因组数据分析的重要资源。它支持研究人员在宏基因组学和蛋白组学研究中快速找到相关的蛋白质序列和功能信息。
结合使用
在宏基因组学分析中,MetaPhlAn和UniRef可以联合使用。首先,MetaPhlAn可以确定样本中的微生物组成。然后,HUMAnN等工具可以利用UniRef数据库对这些微生物的功能进行深入分析,比如识别代谢途径和生物化学活动。这种结合使用提供了一个从物种鉴定到功能预测的完整分析流程。
示例:肠道菌群分析
假设你是一名研究人员,你正在研究肠道炎症性疾病(如克罗恩病或溃疡性结肠炎)与肠道菌群之间的关系。你有一组来自健康个体和炎症性肠道疾病患者的粪便样本。
-
样本收集:
你从参与者那里收集粪便样本,并通过高通量测序技术,如宏基因组测序,获取这些样本的微生物DNA序列数据。 -
数据处理:
使用HUMAnN,你可以对这些测序数据进行处理以鉴定和量化样本中的微生物组成及其功能。 -
物种鉴定:
HUMAnN首先使用MetaPhlAn2等工具确定样本中存在的微生物种类。 -
功能分析:
接着,HUMAnN使用ChocoPhlAn和UniRef数据库比对来识别已知的微生物基因,并使用MetaCyc数据库来注释这些基因所涉及的代谢途径。 -
代谢途径定量:
HUMAnN分析样本中各个代谢途径的丰度,提供每个途径的相对表达量。 -
结果解释:
- 你可能会发现,与健康个体相比,患有炎症性肠道疾病的个体的肠道菌群代谢途径存在显著差异。例如,某些与炎症响应有关的代谢途径可能在患者中表达更多。
- 你可能会注意到一些特定的微生物物种或物种组合在健康与疾病状态之间有不同的丰度模式,这些物种可能参与了关键的代谢途径,比如短链脂肪酸(SCFAs)的生产,这对于维持肠道健康是已知的重要因素。
-
进一步的研究:
根据HUMAnN的分析结果,你可以设计实验来进一步研究特定微生物物种或代谢途径与疾病之间的因果关系。你也可以考虑使用益生菌或特定营养干预来调节这些途径,以探索潜在的治疗方法。
安装和下载
按照原文走conda即可
humann3 – The Huttenhower Lab (harvard.edu)
直接下载数据库
补充三个数据库进行介绍。
chocophlan full:
这个数据库包含了大量细菌和古菌的基因组序列。chocophlan full通常被用作humann2的参考基因组数据库,以辅助对样本序列中的基因家族进行特定物种注释。
uniref90_diamond:
这是一套UniProt选择提取及转换生物序列得到的序列数据集。uniref90_diamond包含了来自各生命领域(如动植物、微生物等)的蛋白质序列,是去冗余并保留注释信息的。
mapping full:
单纯的基因丰度数据不能完整反映样品代谢物组成的情况。mapping-full数据库将Kegg reaction database的路径生成模块与MetaCyc数据库合并,并添加了HMP Piphillin风险调整的基因家族丰度和整个预处理RAM数据库。mapping full由基因家族聚合,该基因家族在每个代谢途径中拥有关键酶的靶标区域用于代表通路,应用于样品中的功能注释和通路丰度计算。
# To upgrade your pangenome database:
humann_databases --download chocophlan full /path/to/databases --update-config yes
#To upgrade your protein database:
humann_databases --download uniref uniref90_diamond /path/to/databases --update-config yes
#To upgrade your annotations database:
humann_databases --download utility_mapping full /path/to/databases --update-config yes
#To profile a sample using updated databases:
humann -i sample_reads.fastq -o sample_results
wget下载
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/chocophlan/full_chocophlan.v296_201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/chocophlan/DEMO_chocophlan.v296_201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/uniprot/uniref_annotated/uniref50_annotated_v201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/uniprot/uniref_annotated/uniref90_annotated_v201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/uniprot/uniref_ec_filtered/uniref50_ec_filtered_201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/uniprot/uniref_ec_filtered/uniref90_ec_filtered_201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/uniprot/uniref_annotated/uniref90_DEMO_diamond_v201901.tar.gz
wget --no-check-certificate http://huttenhower.sph.harvard.edu/humann2_data/full_mapping_v201901.tar.gz
tar -xvzf full_chocophlan.v296_201901.tar.gz
tar -xvzf DEMO_chocophlan.v296_201901.tar.gz
tar -xvzf uniref50_annotated_v201901.tar.gz
tar -xvzf uniref90_annotated_v201901.tar.gz
tar -xvzf uniref50_ec_filtered_201901.tar.gz
tar -xvzf uniref90_ec_filtered_201901.tar.gz
tar -xvzf uniref90_DEMO_diamond_v201901.tar.gz
tar -xvzf full_mapping_v201901.tar.gz
本地下载
复制粘贴这些下载路径到本地下载用迅雷或者其他软件其实更快
06 Humann功能注释 - 王哲MGG_AI - 博客园 (cnblogs.com)
HUMAnN 3.0 (alpha)安装及使用 - 知乎 (zhihu.com)