Qiime1-16.LEfSe输入文件如何生成？如何使用LEfS

2018-12-18 本文已影响3人 jlyq617

今天我们要来介绍在16S分析中经常用到的另一个在线分析工具LEfSe。该工具是由Huttenhower小组开发的，用于通过相对丰度来发现2个或更多个组之间的生物标记。本节主要介绍两种方法第一种是由qiime1生成输入文件+LEfSe web线上分析，第二种是使用Koeken工具产生LEfSe结果。

工具网址：http://huttenhower.sph.harvard.edu/galaxy/
文章引用：Segata et. al 2011
分析的流程如下：
1、导入含有2行metadata的微生物丰度表
2、鉴定与metadata分类相关的微生物标记
3、根据分析结果绘制Bar及Cladograms图

Flow

因为LEfSe的输入文件要求将微生物丰度表和metadata合并在一起，而qiime1中我们将丰度表和metadata的表是分开的，所以我们首先要将两张表格合并。

输入文件含有以下几个要素：
1、Sample Identifiers，样本唯一识别号，通常是mapping文件中的样本ID
2、Class variable，该变量将会用于确定分组以比较两组或多组的差异。
3、Subclass variable，该变量时可选的，当你需要对样本增加更多的描述性信息的时候可以使用该变量。

输入文件格式

准备LEfSe输入文件

转化为相对丰度表

第一步是要将你的OTU表转化为相对丰度表，qiime中的sumarize_taxa.py可以进行该操作，并且添加样本的meta信息。
产生的文件里包含不同分类水平的文件。你可以选择你想要进行分析的水平文件用于下游分析。通常我们选择Level6（Genus 属）水平。

# Convert to relative abundances
summarize_taxa.py \
-i otu_table.biom \
-o summarize_taxa_L6 \
-m mapping_file.txt \
--delimiter '|'

剔除不需要的meta数据

产生的文件包含了所有mapping文件里的meta信息。而LEfSe最多需要两列meta信息和一列Sample identifiers，所以你必须删除其他你不感兴趣的meta信息。另外，删除列名“#SampleID”中的“#”。
最后产生的文件如下图所展示。

输入文件
可以发现与LEfSe给的样例有一点差别，它是以行进行展示，这张表是列，所以在之后进行分析的时候要注意选择Columns。

利用LEfSe分析Qiime数据

打开网站http://huttenhower.sph.harvard.edu/galaxy/，选择左侧LEfSe功能：

LEfSe

然后点击左侧菜单的Get Data，然后上传文件。上传成功后会看见右侧菜单栏增加了你上传的文件。

上传文件

A) Format data for LEfSe

然后我们要进行第一步 Format Data,在这一步里我们需要确定哪一列是我们的class/subclass和sample ID。
a.对于第一个选择，确保输入的文件是你想要分析的文件。（如果没有显示出来，可以重新点击以下LEfSe）
b.确定meta信息是按照列还是行给予。根据你输入文件的格式确定，如果是LEfSe范例中给的输入文件则按照Rows， d如果是qiime1合并得到的输入文件则选择Columns。
c.对于剩下的3个选择，你必须将列名对应到其的变量类别Class/SubClass以及SampleID。如果你没有SubClass那可以选择no subclass。
选择完毕后点击Execute。

FormatData

B) Run LEfSe

接着可以点击左侧LDA Effect Size（LEfSe），确定你的筛选标准包括p value和effect size cutoff。

LEfSe能够发现代表、描述特定群体的分类群，因此如果看到根据变量（例如对照或治疗）着色的任何分类群，可以将其解释为该分类群与其他群体相比显着增加。

C/D. Plotting data

完成了LDA Effect Size之后就可以继续点击左侧菜单栏，进行图像的绘制。

Plot LEfSe Results

LEfSe Results

该图为条形图条形长度表示特定组中特定分类群的效应大小（LDA）。条形的长度表示log10转换的LDA分数。颜色表示与其他组相比，发现分类群的哪个组更丰富，即代表在哪个组丰度更高。即使rag2（红色）的LDA得分为负，这也是由于计算效果大小时分子和分母的顺序。此顺序由字母顺序确定，因此我们始终可以使用效果大小的绝对值来解释某个分类群的两组之间差异的比例。

Plot Cladogram

Cladogram

第二个图以分支图的形式显示结果，这是表示显着性和系统发育的直观方式。颜色代表系统发育树的哪个分支更显着地代表某一群体。在这种情况下，放线菌和拟杆菌在rag2组中更丰富，而厚壁菌在truc组中更为丰富

其他
剩下两个画图功能可以更详细的展示不同样本的不同生物标记的分布。大家可以根据自己的需求选择。

使用Koeken工具生成LEfSE结果

除了使用qiime1以外，我们还可以使用Koeken工具产生输入文件。该工具可将LEfSe直接与QIIME数据一起用于快速分析。它的构建使用户可以使用LEfSe分析他们的16s rRNA数据，而无需手动更改meta数据信息并将数据上传到Galaxy。通常，此meta变量是关于数据的时间特征，以便于我们可以查看每个时间点的生物标记分类单元。

安装：

# Install Koeken
pip install https://github.com/twbattaglia/koeken/zipball/master

例子：如果包含--clade选项，将为每个分析生成分支图。

koeken.py \
--input otu_table.biom \
--output koeken_output \
--map mapping_file.txt \
--level 6 \
--class Treatment \
--split Day \
--clade

最终Koeken会在每个时间点产生许多文件，包括了LEfSe的结果。当然，如果需要，你还可以像之前的例子一样，将产生的文件传到LEfSe的网站上进行后续的分析。
最后生成的文件如下：

── koeken_output/ 
  └── summarize_taxa_L#/ (Summarize taxa output files)
  └── lefse_output/ 
      └── format_lefse/ (Formatted LEfSe files)
      ├── run_lefse/ (Results from running analysis files)
         └── clade/ (PDF's of analysis cladograms)