Greengenes2 2022.10

2023-03-09  本文已影响0人  zd200572

没错,你没看错,十年后最经典的16S数据库--Greengenes数据库更新了,提供了Qiime2兼容插件,分析流程,还将继续更新,用起来呀!虽然还没发表,只是上传在了预印本服务器,相信肯定会发Nature啦!
先来欣赏上NCS级别的酷图,是不是感觉帅呆了!



宏基因组学和16S rRNA基因扩增子(16S)研究广泛用于微生物组研究,但使用不同方法的研究人员通常发现他们的结果难以调和。方法之间缺乏标准化限制了微生物组对可重复生物标志物发现的效用。一个关键问题是全基因组资源和rRNA资源依赖于不同的分类和系统发育。Greengenes2在属水平(Pearson r=0.85)和物种水平上提供了良好的一致性(Pearson r=0.65)。

从头开始重新设计,以全基因组为后盾,重点是协调16S rRNA和shotgun宏基因组数据集。我们称新数据库为Greengenes2,因为设计发生了重大变化。然而,像最初的Greengenes一样,它依赖于从头的系统发育,并表达了源自系统发育的分类学。

适用于短读长宏基因组学和16S rRNA测序研究。它允许直接整合16S rRNA和shotgun宏基因组数据集。此外,保留了GTDB的分类管理,包括其多系标签。而且,对于专注于16S rRNA基因V4区域的研究,分类可以直接从系统发育中获得,而无需使用朴素贝叶斯,这似乎比朴素贝叶斯产生更高的分辨率结果。

如何使用Greengenes2?

使用Greengenes2的最简单方法是通过q2-greengenes2.该插件提供了将数据与资源进行比较的操作。比较数据的方式取决于您拥有的数据类型。我们将在下面介绍几个不同的场景,并提供交互的具体示例。

在我们继续之前,让我们安装 Greengenes2 插件!

$ pip install q2-greengenes2

...下次运行“qiime”命令时,它将需要重新缓存其环境,这将需要几秒钟的时间。

如果您有 V4 数据

Greengenes2包含超过20,000,000个16S rRNA V4扩增子测序片段,这些片段来自Qiita中令人眼花缭乱的公共和私人微生物组样本。
我们要下载的文件的名称是“2022.10.taxonomy.asv.nwk.qza”,这意味着它是“分类”数据,特征 ID 表示为实际扩增子序列变体;“NWK”表示它是一个内部的NewickFormat,这是一种表示树结构的方式。此外,我们将使用编码扩增子序列变体的分类法变体作为 ASV 本身(而不是 MD5 哈希)。我们使用“asv”表示的原因是,默认情况下,redbiom 将扩增子序列变体输出为序列本身。

如果我的 ASV 经过哈希处理怎么办?简单!只需使用“2022.10.taxonomy.md5.nwk.qza”工件,您就可以开始了。

注意:filter-features命令现在需要大约8-10GB 的内存。虽然从概念上讲,只是简单地采用一组特征的交集,但数据集本身非常大 - 这是我们未来正在考虑优化的东西。

$ wget http://ftp.microbio.me/greengenes_release/2022.10/2022.10.taxonomy.asv.nwk.qza
$ qiime greengenes2 filter-features \
>     --i-feature-table icu.biom.qza \
>     --i-reference 2022.10.taxonomy.asv.nwk.qza \
>     --o-filtered-feature-table icu_gg2.biom.qza
Saved FeatureTable[Frequency] to: icu_gg2.biom.qza

现在我们已经过滤了我们的表格,我们可以收集所代表的扩增子序列变体的分类信息。

注意:就像filter-features一样,此命令现在将需要大约 8-10GB 的内存。

$ qiime greengenes2 taxonomy-from-table \
>     --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \
>     --i-table icu_gg2.biom.qza \
>     --o-classification icu_gg2.taxonomy.qza
Saved FeatureData[Taxonomy] to: icu_gg2.taxonomy.qza

就这样,您使用Greengenes2对序列数据进行了分类!

如果您有非 V4 数据

一些用户可能具有全长16S rRNA序列,或者其他长片段,这些片段可能无法在我们已经放置的片段集中表示。对于这些情况,我们建议使用non-v4-16sq2-vsearch将针对Greengenes2 16S中的全长序列执行闭合参考OTU选取

$ biom table-ids \
>     -i icu.biom \
>     --observations | \
>         awk '{ print ">" $1 "\n" $1 }' > icu.fna
$ qiime tools import \
>     --input-path icu.fna \
>     --output-path icu.fna.qza \
>     --type FeatureData[Sequence]
Imported icu.fna as DNASequencesDirectoryFormat to icu.fna.qza

一个缺失的部分是我们需要下载骨架16S rRNA序列。骨架代表了Greengenes16中所有独特的全长2S rRNA序列:FeatureTable[Frequency]icu.biom.qzaFeatureData[Sequence]
$ wget http://ftp.microbio.me/greengenes_release/2022.10/2022.10.backbone.full-length.fna.qza
可以指定在此操作中使用多个线程,以使其运行得更快:

$ qiime greengenes2 non-v4-16s \
>    --i-table icu.biom.qza \
>    --i-sequences icu.fna.qza \
>    --i-backbone 2022.10.backbone.full-length.fna.qza \
>    --o-mapped-table icu.gg2.biom.qza \
>    --o-representatives icu.gg2.fna.qza
Saved FeatureTable[Frequency] to: icu.gg2.biom.qza
Saved FeatureData[Sequence] to: icu.gg2.fna.qza

现在我们已经将数据映射到Greengenes2,让我们对序列的分类进行分类!您可能会注意到,此命令与我们对 V4 数据使用的命令相同,但缺少一些(略微)不同的输入文件名:

$ qiime greengenes2 taxonomy-from-table \
>     --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \
>     --i-table icu.gg2.biom.qza \
>     --o-classification icu.gg2.taxonomy.qza
Saved FeatureData[Taxonomy] to: icu.gg2.taxonomy.qza

如果您有宏基因组数据

建议使用 Woltka 处理您的简短读取后,您可以使用FeatureTable[Frequency]filter-features .然后可以使用q2-greengenes2操作生成qza。

$ qiime greengenes2 filter-features \
>     --i-feature-table woltka.example.biom.qza \
>     --i-reference 2022.10.taxonomy.asv.nwk.qza \
>     --o-filtered-feature-table woltka_gg2.example.biom.qza
Saved FeatureTable[Frequency] to: woltka_gg2.example.biom.qza
$ qiime greengenes2 taxonomy-from-table \
>     --i-reference-taxonomy 2022.10.taxon
>     --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \
>     --i-table woltka_gg2.example.biom.qza \
>     --o-classification woltka_gg2.example.taxonomy.qza
Saved FeatureData[Taxonomy] to: woltka_gg2.example.taxonomy.qza
上一篇 下一篇

猜你喜欢

热点阅读