生信数据库

常用扩增子数据库

2024-05-18  本文已影响0人  Asa12138

Introduction

扩增子测序是一种主要用于研究微生物群落结构的分子生物学技术。它主要用于分析环境样本中的微生物群落,特别是对细菌和古菌的16S rRNA基因以及真菌的18S rRNA基因进行测序。这项技术广泛用于研究土壤、水体、空气、生物体内等不同环境中微生物的多样性和丰度。

基本步骤:

  1. DNA提取: 从样本中提取总DNA。

  2. 目标基因扩增: 使用聚合酶链式反应(PCR)扩增目标基因片段。对于细菌和古菌,通常选择16S rRNA基因的特定区域;对于真菌,选择18S rRNA基因。

  3. 文库构建: 将扩增的DNA片段构建成文库,通常通过添加适配器序列。

  4. 高通量测序: 使用高通量测序技术,如Illumina、454、Ion Torrent等,对文库进行测序。

  5. 数据分析: 对测序得到的数据进行生物信息学分析,包括去除低质量序列、去除冗余、聚类分析、物种注释等。

  6. 生态学分析: 利用得到的数据,进行微生物群落的多样性、丰度、结构等生态学研究。

更详细的代码流程可以参考刘永鑫老师的EasyAmplicon (1)

除了16S和18S rRNA,还有其他一些常用的核酸序列,特别是在研究微生物和生物多样性时。以下是一些常见的核酸序列:

Database

涉及到16S rRNA基因的序列数据库时,有三个主要的数据库是常用的:GreengenesSILVARDP

Greengenes

https://greengenes2.ucsd.edu/

Greengenes2

  1. 标准化的分类系统: Greengenes2沿用了Greengenes的分类系统,即GTDB(Genome Taxonomy Database),这意味着在不同研究之间,微生物分类的结果更加一致和可比较。

  2. 系统发育的一致性: 该数据库允许直接整合16S rRNA和宏基因组数据集,将它们统一在一个参考树中。分析表明,由相同样本生成的16S rRNA和宏基因组数据在主坐标空间、分类学和表型效应大小方面一致。

  1. 系统发育覆盖率的提高: Greengenes2的系统发育覆盖率远大于过去的资源,包括SILVA、Greengenes和GTDB。这提供了更全面的分类信息,有助于更好地理解微生物群落的结构。

  2. 高分辨率结果: 对于16S rRNA基因V4区域的研究,Greengenes2允许直接从系统发育中获得分类结果,无需使用朴素贝叶斯方法,并可能产生更高的分辨率结果。

  3. 良好的一致性: 与Silva数据库相比,Greengenes2在属水平和物种水平上提供了良好的一致性,这有助于确保研究结果的可靠性和可重复性。

总体而言,Greengenes2的全面性和一致性提高了使用不同数据类型进行微生物组研究的可重复性。这对于确定影响微生物组变化的变量,并在不同人群中可靠地进行比较,具有重要的科研意义。

SILVA

https://www.arb-silva.de/

RDP (Ribosomal Database Project)

https://lcsciences.com/documents/sample_data/16S_sequencing/src/html/top1.html

UNITE

https://unite.ut.ee/

  1. 用途: UNITE数据库是用于真菌鉴定和多样性检测的主要marker基因数据库。ITS(核糖体基因内转录间隔区)是最常用的真菌标记基因之一。

  2. 数据库更新: 最近一次的更新是在2023-11-30。数据库的更新对于确保其中包含最新的、全面的真菌序列是非常重要的。

  3. 阈值聚类: 数据库提供了阈值聚类的选项,用户可以根据需要选择不同的阈值,以调整序列的聚类水平。这对于控制数据的复杂度和提高分析效率很有帮助。

  4. 包含singleton序列: 用户可以选择是否包含singleton序列,即那些在数据库中没有与其碱基完全相同的物种序列。这个选择可能影响到数据的多样性分析。

  5. 物种统计信息: 用户可以通过在第三个方框中填入感兴趣的物种,查看数据库中该物种的序列统计信息。这包括左下角展示的物种序列统计信息和右下角对应的扇形图。

  6. 内置blast功能: UNITE数据库还内置了blast功能,用户可以通过数据库的右上角菜单栏 “Run Analysis” 进行操作。这个功能允许用户通过blast来进行序列的比对和相似性搜索。

References

  1. Y.-X. Liu, L. Chen, T. Ma, X. Li, et al., EasyAmplicon: An easy-to-use, open-source, reproducible, and community-based pipeline for amplicon data analysis in microbiome research. iMeta. 2, e83 (2023).
  1. D. McDonald, Y. Jiang, M. Balaban, K. Cantrell, et al., Greengenes2 unifies microbial data in a single reference tree. Nature Biotechnology, 1–4 (2023).
  1. C. Quast, E. Pruesse, P. Yilmaz, J. Gerken, et al., The SILVA ribosomal RNA gene database project: Improved data processing and web-based tools. Nucleic Acids Research. 41, D590–D596 (2013).
  1. B. L. Maidak, G. J. Olsen, N. Larsen, R. Overbeek, et al., The Ribosomal Database Project (RDP). Nucleic Acids Research. 24, 82–85 (1996).
上一篇 下一篇

猜你喜欢

热点阅读