QIIME2的使用手册
本文从QIIME2的官网进行查看翻译
https://docs.qiime2.org/2021.8/tutorials/moving-pictures/
首先使用Keemei对于metadata进行check。
输入的数据格式应为*.qza
0 工作流程
image.png总体概念图:
image.png
1 对得到的数据进行统计分析
例子数据
wget https://docs.qiime2.org/2021.8/data/tutorials/moving-pictures/demux.qza
以下代码可以让你知道每个样本有多少sequences, 也会统计每个位置的质量分布
qiime demux summarize --i-data demux.qza --o-visualization demux.qzv
所有的QIIME2 可视化文件都会是*.qzv格式,需要使用qiime tools view来查看
qiime tools view demux.qzv
结果:
image.png image.png
2 sequence质量控制和特征表构建
DADA2适用于Illumina测序平台数据的测试和校正pipeline。
此质量控制过程将额外过滤在测序数据中识别的任何 phiX 读数(通常存在于标记基因 Illumina 序列数据中),并将过滤嵌合序列。
2.1 sequence质量控制
data2 denosie-single法需要使用两个参数:
1: –p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;
2 : –p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们需要去除质量下不好的端,可以看到120以后,甚至中位数都下降至20以下,需要全部去
请将下图的所有输出文件名字去掉“-dada2”,否则后续代码会出现很多错误。
m与n替换为实际选择值
如果忘记去除“-dada2”,再运行下述命令,使用
mv rep-seqs-dada2.qza rep-seqs.qza
mv table-dada2.qza table.qza
输出文件:
image.png
对DADA2质控的结果进行可视化的文件输出:
image.png
将输出:
image.png
2.2 特征构建和汇总
质量过滤步骤完成后,您将需要浏览生成的数据。并且决定下一步Sampling Depth 的值,即决定所有的样本的长度,如果低于这个长度的将会被去除
tabulate-seqs
使用命令:
feature-table summarize #每个样本有多少sequences,每个的分布和一个统计;该命令将为您提供与每个样本和每个特征相关联的序列数、这些分布的直方图以及一些相关的汇总统计信息。
feature-table tabulate-seqs #给出每个IDs与每个簇代表sequences映射,这样更容易进行blast。并提供链接以轻松地针对 NCBI nt 数据库对每个序列进行 BLAST
应该把下面的table.qza改为上述的table-data2.qza, sample-metadata.tsv是来自上述stats-dada2.qzv文件的保存数据(保存后,可以改为这个名字)
image.png
输出文件:
image.png
3 生成用于系统发育多样性分析的树
QIIME 支持多种系统发育多样性指标,包括 Faith 的系统发育多样性以及加权和未加权的 UniFrac。除了每个样本的特征计数(即FeatureTable[Frequency]QIIME 2 工件中的数据)之外,这些指标还需要一个将特征相互关联的有根系统发育树。此信息将存储在Phylogeny[Rooted]QIIME 2 工件中。为了生成系统发育树,我们将使用插件中的align-to-tree-mafft-fasttree管道q2-phylogeny。
首先,管道使用mafft程序对我们中的序列执行多序列比对,FeatureData[Sequence]以创建FeatureData[AlignedSequence]QIIME 2 工件。接下来,管道屏蔽(或过滤)对齐以移除高度可变的位置。这些位置通常被认为会给生成的系统发育树增加噪音。之后,管道应用 FastTree 从掩码对齐生成系统发育树。FastTree 程序创建了一个无根树,因此在本节的最后一步中,中点生根用于将树的根放置在无根树中最长的尖端到尖端距离的中点处。
qiime 支持多种多样性分析的指标:Faith’s Phylogenetic Diversity and weighted and unweighted UniFrac。 FeatureTable[Frequency] 生成有根的树,以align-to-tree-mafft-fasttree进行
使用mafft 命令, 再使用FastTree 生产无根树
image.png
生成:
image.png
4 Aplha和beta多样性分析
多样性是使用q2-diversity进行
首先使用core-metrics-phylogenetic法计算alpha和beta的多样性指标
image.png
命令:d是需要选择使用的样本测序深度,推荐查看上述的table.qzv文件
5 查看每个样本的微生物组成
5.1 Aplha稀疏ploting
我们将使用 qiime diversity alpha-rarefaction探索 alpha 多样性作为采样深度的函数。 此可视化工具在多个采样深度计算一个或多个 alpha 多样性指标,步长介于 1(可选地使用 --pmin-depth 控制)和作为 --p-max-depth 提供的值之间。 在每个采样深度步骤,将生成 10 个稀疏表,并且将为表中的所有样本计算多样性度量。 可以使用 --piterations 控制迭代次数(在每个采样深度计算的精简表)。 将在每个偶数采样深度为每个样本绘制平均多样性值,并且如果meta与 --m-metadata-file 参数一起提供,则样本可以根据结果可视化中的元数据进行分组。
image.png
(有问题,没做出来),直接下载的官网结果文件,可视化:
image.png image.png
可视化将有两个图。顶部图是 alpha 稀疏图,主要用于确定样本的丰富度是否已被完全观察或排序。如果图中的线在沿 x 轴的某个采样深度处看起来“变平”(即接近零的斜率),则表明收集超出该采样深度的其他序列不太可能导致观察的附加功能。如果图中的线条没有变平,这可能是因为还没有完全观察到样本的丰富度(因为收集的序列太少),或者可能表明仍然存在大量测序错误在数据中(这被误认为是新颖的多样性)。
当按元数据对样本进行分组时,此可视化中的底部图很重要。它说明了当特征表被稀疏到每个采样深度时,每个组中剩余的样本数。如果给定的采样深度d大于样本的总频率s(即,为 sample 获得的序列数s),则不可能s在采样深度为 sample 计算多样性度量d。如果一组中的许多样本的总频率低于d,则该组的平均多样性在d顶部图将不可靠,因为它是在相对较少的样本上计算的。因此,在按元数据对样本进行分组时,必须查看底部图以确保顶部图中显示的数据可靠。
注意:
提供的值--p-max-depth应通过查看table.qzv上面创建的文件中显示的“每个样本的频率”信息来确定。一般而言,选择一个位于中值频率附近的值似乎效果很好,但如果生成的稀疏图中的线似乎没有变平,您可能希望增加该值,或者如果您看起来像减少该值由于低总频率比最大采样深度更接近最小采样深度而丢失许多样本。
6 分类分析(Taxonomoc analysis)
在接下来的部分中,我们将开始探索样本的分类组成,并再次将其与样本元数据联系起来。此过程的第一步是为FeatureData[Sequence]QIIME 2 工件中的序列分配分类法。我们将使用预训练的朴素贝叶斯分类器和q2-feature-classifier插件来做到这一点。该分类器在 Greengenes 13_8 99% OTU 上进行了训练,其中序列已被修剪为仅包含来自本分析中测序的 16S 区域(V4 区域,由 515F/806R 引物对结合)的 250 个碱基。我们将这个分类器应用到我们的序列中,我们可以生成从序列到分类法的映射结果的可视化。
注意:
分类分类器在根据您的特定样品制备和测序参数(包括用于扩增的引物和序列读数的长度)进行训练时表现最佳。因此,通常您应该按照使用 q2-feature-classifier 训练特征分类器中的说明来训练您自己的分类分类器。我们在数据资源页面上提供了一些常用分类器,包括基于 Silva 的 16S 分类器,但将来作者可能会停止提供这些分类器,以便让用户训练自己的分类器,这将与他们的序列数据最相关。