生信数据库宏基因组

使用antiSMASH数据库及软件分析微生物组

2024-05-07  本文已影响0人  Asa12138

Introduction

上次简要介绍过了微生物组中生物合成基因簇(BGCs)分析,这次具体讲解使用antiSMASH数据库及软件分析的流程。

antiSMASH(antibiotics & Secondary Metabolite Analysis Shell)是一个用于识别和分析微生物中生物合成基因簇(BGCs)的工具。BGCs是一组编码生物合成途径的基因,这些途径用于合成生物活性化合物,如抗生素、抗肿瘤药物等。通过分析BGCs,可以帮助研究者发现新的生物活性化合物,并了解这些化合物的生物合成途径。

网址:https://antismash.secondarymetabolites.org

antiSMASH 使用基于规则的方法来识别 SM 生产中涉及的许多不同类型的生物合成途径。对编码非核糖体肽合成酶(non-ribosomal peptide synthetases,NRPS)、I型和II型聚酮合酶(polyketide synthases,PKS)、羊毛肽(lanthipeptides)、套索肽(sactipeptides)、活性肽(sactipeptides)和硫肽(thiopeptides)的BGC进行更深入的分析,针对这些簇特异性分析可以提供更多信息有关所执行的生物合成步骤的信息,从而还可以提供对所产生的化合物的更详细的预测(下图):

网页版

antiSMASH网页版提供细菌、真菌和模式植物三类生物的BGC分析页面。
细菌和真菌类似,模式植物则差异较大。

这是 antiSMASH 的最新稳定细菌版本的屏幕截图如下:

注册antiSMASH作业

如果希望在完成工作后收到电子邮件提醒您可以选择在“通知设置”面板中提供电子邮件地址。一旦顺利完成或不幸发生任何错误,将收到一封电子邮件,其中包含已完成作业的链接。

如果没有提供电子邮件地址,则应该为作业提交页面的链接添加书签,否则将无法再访问结果。

antiSMASH 输入数据

  1. 有注释的核苷酸序列

antiSMASH 的理想输入是 Genbank 格式或 EMBL 格式的带注释的核苷酸文件。可以手动上传本地 GenBank/EMBL 文件,也可以直接输入序列的 GenBank/RefSeq 登录号,以便 antiSMASH 上传。

可以在“数据输入”面板中切换该选项,其中默认为accession number,antiSMASH 将尝试直接从 NCBI 下载数据。

  1. 无注释的核苷酸序列

antiSMASH 默认和额外功能

在按下提交按钮之前,您必须指出您想要运行哪些 antiSMASH 功能。

默认情况下,antiSMASH 将运行以下功能:

以下 antiSMASH 功能始终在后台运行:

额外功能:

以下三个功能默认关闭,被认为对高级用户有用,或者在发现有趣的生物合成基因簇需要进一步详细分析时有用:

提交antiSMASH作业

设置在线 antiSMASH 作业后,点击页面底部的提交,基因簇识别和分析的计算将在antiSMASH服务器上进行。
当工作完成后,用户会收到一封通知电子邮件。或者转到已添加书签的链接来检查分析是否已完成。

本地版

安装

官方教程:https://docs.antismash.secondarymetabolites.org/install/

请选择以下四种方式的一种即可!

  1. Bioconda,依赖项很多,安装很慢
# 创建环境
conda create -n antismash antismash
conda activate antismash

# 下载数据库
download-antismash-databases

# 想运行 antiSMASH,只需调用
antismash my_input.gbk
  1. Docker,有些集群环境无法使用Docker
mkdir ~/bin 
curl -q https://dl.secondarymetabolites.org/releases/latest/docker-run_antismash-full > ~/bin/run_antismash
chmod a+x ~/bin/run_antismash
run_antismash <input file> <output directory> [antismash options]
  1. Manual, 大部分没有root权限用不了
sudo apt-get update
sudo apt-get install -y apt-transport-https
sudo wget http://dl.secondarymetabolites.org/antismash-stretch.list -O /etc/apt/sources.list.d/antismash.list
sudo wget -q -O- http://dl.secondarymetabolites.org/antismash.asc | sudo apt-key add -
sudo apt-get update

sudo apt-get install hmmer2 hmmer diamond-aligner fasttree prodigal ncbi-blast+ muscle glimmerhmm
  1. 半手动安装

如果可以一次性bioconda安装成功那便是极好的,但我在安装过程中遇到了不少问题,最后参考https://github.com/BioGavin/wlab_antismash提供的方法比较顺利地成功了:

首先下载该github仓库下的文件(不同版本的antiSMASH)

conda create -n antismash_5.2.0 python=3.8  # 创建环境
conda activate antismash_5.2.0  #激活环境

# 将antismash_5.2.0/bin 文件夹中的两个脚本文件(Unix可执行文件)放置到 ~/miniconda3/envs/antismash_5.2.0/bin/ 目录下
cp antismash_5.2.0/bin/* ~/miniconda3/envs/antismash_5.2.0/bin/

# 将目标版本5.2.0的 antismash 包文件放置到 ~/miniconda3/envs/antismash_5.2.0/lib/python3.8/site-packages/ 目录下
cp -r antismash_5.2.0/antismash ~/miniconda3/envs/antismash_5.2.0/lib/python3.8/site-packages/

# 根据环境配置文件安装依赖
conda env update --file antismash_5.2.0/antismash.yaml
pip install -r antismash_5.2.0/requirements.txt

# 如果上述步骤顺利,此时可以运行成功
antismash -h

# 进一步检查
antismash --check-prereqs

# 下载数据库速度较慢,放后台慢慢下载,我花了4小时
nohup download-antismash-databases &

运行参数

$ antismash -h

########### antiSMASH 5.2.0 #############

用法: antismash [-h] [options ..] sequence

参数:
  SEQUENCE  包含DNA序列的GenBank/EMBL/FASTA文件。

--------
选项
--------
-h, --help              显示此帮助文本。
--help-showall          在此帮助文本上显示所有参数的完整列表。
-c CPUS, --cpus CPUS    并行使用的CPU数量。 (默认值: 64)

基本分析选项:

  --taxon {bacteria,fungi}
                        输入序列的分类学分类。 (默认值: bacteria)

附加分析:

  --fullhmmer           运行全基因组HMMer分析。
  --cassis              基于模体的SM基因簇区域预测。
  --cf-borders-only     仅注释现有簇的边界。
  --cf-create-clusters  查找额外的簇。
  --clusterhmmer        运行基于簇的HMMer分析。
  --smcog-trees         生成次级代谢物簇正交基因组的系统发育树。
  --tta-threshold TTA_THRESHOLD
                        注释TTA密码子的最低GC含量 (默认值: 0.65)。
  --cb-general          将识别的簇与antiSMASH预测的簇数据库进行比较。
  --cb-subclusters      将识别的簇与负责合成前体的已知子簇进行比较。
  --cb-knownclusters    将识别的簇与MIBiG数据库中已知的基因簇进行比较。
  --asf                 运行活性位点查找分析。
  --pfam2go             运行Pfam到基因本体映射模块。

输出选项:

  --output-dir OUTPUT_DIR
                        写入结果的目录。
  --output-basename OUTPUT_BASENAME
                        用于输出目录中输出文件的基本文件名。
  --html-title HTML_TITLE
                        HTML输出页面的自定义标题(默认为输入文件名)。
  --html-description HTML_DESCRIPTION
                        要添加到输出的自定义描述。
  --html-start-compact  默认情况下使用紧凑视图的概览页面。

基因查找选项 (当ORFs已注释时被忽略):

  --genefinding-tool {glimmerhmm,prodigal,prodigal-m,none,error}
                        指定用于基因查找的算法: GlimmerHMM、Prodigal、Prodigal Metagenomic/Anonymous模式或无。'error'选项将在尝试基因查找时引发错误。'none'选项不会运行基因查找。 (默认值: error)。
  --genefinding-gff3 GFF3_FILE
                        指定要从中提取特征的GFF3文件。

运行示例

默认的 antiSMASH 将运行核心检测模块和那些运行速度相当快的分析。

更耗时的选项(例如 ClusterBlast 分析、Pfam 注释、smCoG 树生成等)将不会运行。
在四核机器上,跑完天蓝色链霉菌的基因组大约需要两分钟。

# 本地运行
antismash streptomyces_coelicolor.gbk

使用 --minimal 参数运行 antiSMASH 将仅运行核心检测模块,而不会运行其他模块。

如果需要,可以使用其匹配选项显式重新启用由此禁用的任何模块(例如 HTML 输出)(参阅 --help-showall)。

在四核机器上,以minimal模式运行天蓝色链霉菌基因组大约需要一分钟。
一般来建议在不加 --minimal,因为默认运行只需额外一分钟的运行时间即可生成更有用的结果。

一般分箱得到的MAG是没有功能注释的纯fasta文件,可以使用 --genefinding-tool prodigal 参数运行 prodigal,这样可以生成初步注释。

antismash test_MAG.fa --genefinding-tool prodigal

先前由 antiSMASH 生成的 JSON 输出文件可以重复使用以重新生成其他输出文件。通过添加选项,可以为新运行启用其他分析。

antismash --reuse-results strepomyces_coelicolor.json

结果解读

Overview

仅当使用 KnownClusterBlast 选项运行 antiSMASH 时,才会显示包含与 MiBIG 数据库比较的最后两列。

Result

在上图“基因簇描述”中,给出了有关检测到的每个基因簇的信息。

上面一行显示了基因簇的生物合成类型和位置。在此标题行下方,概述了检测到的基因簇中存在的所有基因。基因簇的边界是使用每个基因簇类型指定的不同贪婪选择的截止值来估计的。

基因按预测功能进行颜色编码。预测的生物合成基因为红色,运输相关基因为蓝色,调节相关基因为绿色。这些预测取决于 smCOG 功能,如果您选择不运行 smCOG 预测,这些预测将会丢失。

将鼠标悬停在某个基因上,基因名称会显示在该基因上方。

单击基因将提供有关该基因的更多信息:标识符、现有产物注释、基因功能(包括 smCOG 或次级代谢基因家族)、其位置以及特定于该基因的交联。

Region概念

目前还没有好的方法可以纯粹根据提交的序列数据准确预测基因簇边界。因此,antiSMASH 预测的是输入基因组上的感兴趣"Region"。

antiSMASH 5 及更高版本中的 Region 对应于 antiSMASH 4 及更早版本中的 gene cluster 注释。

Region是如何定义的?

以下是检测 I 型 PKS 的原集群的规则示例:

当 antiSMASH 发现编码具有 PKS_AT 结构域和各种亚型的 PKS_KS 结构域的蛋白质的基因时,就会在该区域内生成新的“I 型 PKS 原簇”特征;

该特征包括触发规则的核心基因产物(即 PKS 编码基因),并将核心基因的左右邻域向左和右扩展 20 kb(由 EXTENT 参数定义)

不同簇类型的值是根据经验确定的,通常倾向于过度预测,即在分配原簇特征后(注意:单个区域内可以有多个原簇特征),它们是检查重叠(由 CUTOFF 参数定义)并分为几种类型的候选簇,以反映许多 BGC 实际上包含几类生物合成机制的观察结果。

例如万古霉素或巴希霉素(如上图所示)等糖肽是通过 NRPS 合成的。还包含 III 型 PKS 作为前体途径。

因此,显示的区域包含 NRPS 原簇(绿色条)和 T3PKS 原簇(黄色条)。当它们的邻域重叠时,它们被分配到候选簇。

这些候选簇包含共享簇定义 CDS/基因/基因产物的原簇。它们还将包括该共享范围内不共享 CDS 的原星团,前提是它们完全包含在超星团边界内。例如上图中的情况A。
在示例中,CDS 1 和 2 定义类型 A 的原簇,CDS 2 和 4 定义类型 B 的原簇。由于两个原簇共享定义这些原簇的 CDS,因此创建了化学混合候选簇。如果 CDS 4 和一些后来的 CDS 也对第三种原簇类型做出了贡献,那么它将被合并到同一个候选簇中。如果 CDS 3 定义了另一个未超出 CDS 1 或 4 的原簇,那么假设新的原簇与其他原簇相关,那么该新的原簇也将包含在化学混合中。

这些候选簇包含不共享簇定义 CDS 特征的原簇,但它们的核心位置重叠,例如上图中的情况 B。

这些候选簇是混合候选簇的最弱形式。它们包含与化学变体或交错变体都不匹配的原簇,但在其邻域中传递重叠。 “相邻候选簇”中的每个原簇也将属于其他类型的候选簇之一,包括下面描述的单一类型,除非它是单个候选簇并且具有相邻候选簇的精确坐标的情况。

这种候选簇存在于仅包含一个原簇的地方,例如情况D。它的存在只是为了内部一致性。对于包含在化学杂合体或交错候选簇中的原簇来说,将不存在单个候选簇,但对于相邻候选簇内的每个原簇来说,将存在单个候选簇。例如,情况 C 中的两个原簇都将有一个独立的单个候选簇以及邻近的候选簇。

尝试将微生物组项目中的MAGs跑完antiSMASH并进行下游的统计分析和可视化,下次再分享

上一篇 下一篇

猜你喜欢

热点阅读