生信软件 | bowtie2（测序序列与参考序列比对）

2019-10-28 本文已影响0人白墨石

1. 介绍

Bowtie2 是将测序reads与长参考序列比对工具 (适用于将长度大约为50到100或1000字符的reads与相对较长的基因组, 如哺乳动物,进行比对)。
通常是比较基因组学(包括识别变体（variation calling），ChIP-seq，RNA-seq，BS-seq)管道的第一步。
可以处理非常长的读数（即10s或100s的千字节），但它针对近期测序仪产生的读数长度和误差模式进行了优化，如Illumina HiSeq 2000，Roche 454和Ion Torrent仪器。
Bowtie2使用FM索引（基于Burrows-Wheeler Transform 或 BWT）对基因组进行索引，以此来保持其占用较小内存。对于人类基因组来说，内存占用在3.2G左右。Bowtie2 支持间隔，局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。

如果目的是对齐两个非常大的序列（例如两个基因组），请考虑使用MUMmer。
如果目的是与相对较短的参考序列（如细菌基因组）非常灵敏的比对，可以使用Bowtie 2完成，但也可以考虑使用NUCmer，BLAT或BLAST等工具。当参考基因组很长时，这些工具可能会非常缓慢，但当参考基因组很短时通常就足够了。

2. 安装

这里提供两种方法，选择一种安装即可，强烈建议使用Conda方式安装

2.1 Conda 安装

conda install -y bowtie2

这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件，重要的是可以解决软件的依赖问题) ： Conda 安装使用图文详解

2.2 传统安装

下载

http://bowtie-bio.sourceforge.net/bowtie2/index.shtml

在Linux系统下将上述的链接下载到本地

sudo wget https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.3.4.1/bowtie2-2.3.4.1-linux-x86_64.zip

解压

unzip bowtie2-2.3.4.1-linux-x86_64.zip

设置环境变量

打开环境变量设置文件

sudo vim /etc/environment

添加软件 bin 目录的路径，并用 : 隔开，如下图

执行source命令，使配置立即生效

sudo source /etc/enviroment

3. 使用

3.1 示例

单末端

"bowtie2 -p 10 -x genome_index -U input.fq | samtools sort -O bam -@ 10 -o - > output.bam

双末端

bowtie2 -p 10 -x genome_index -1 input_1.fq -2 input_2.fq | samtools sort -O bam -@ 10 -o - > output.bam

需要注意的是：

这条命令把bowtie2 生成的sam文件通过管道|传递到samtools，将sam转换为bam文件，省去中间sam文件的空间占用

genome_index 指的是用于bowtie2的索引文件（如下图），而不是参考基因组本身，构建过程参考后文。

genome_index 需要指定路径及其共用文件名，比如我的索引文件放在/data/ref/bowtie2/mm10目录下，但是需要输入的参数为/data/ref/bowtie2/mm10/mm10。最后一个mm10指的是共用文件名。
mark

3.1.1 必需参数

参数	解释
-x <bt2-idx>	参考基因组索引的基名。基本名称是任何索引文件的名称，但不包括最终的`.1.bt2`/ `.rev.1.bt2`/等。`bowtie2`在当前目录中首先查找指定的索引，然后在`BOWTIE2_INDEXES`环境变量中指定的目录中查找。
-1 <m1>	以逗号分隔的包含队友1的文件列表（文件名通常包含`_1`），例如`-1 flyA_1.fq,flyB_1.fq`。使用此选项指定的序列必须与文件中的文件和读取的文件一致`<m2>`。读数可能是不同长度的混合。如果`-`指定，`bowtie2`将从“标准输入”或“标准输入”文件句柄读取队友1。
-2 <m2>	逗号分隔的包含队友2（文件名通常包括`_2`）的文件列表，例如`-2 flyA_2.fq,flyB_2.fq`。使用此选项指定的序列必须与文件中的文件和读取的文件一致`<m1>`。读数可能是不同长度的混合。如果`-`指定，`bowtie2`将从“标准输入”或“标准输入”文件句柄中读取队友2。
-U <r>	逗号分隔的包含未配对读取的文件列表要对齐，例如`lane1.fq,lane2.fq,lane3.fq,lane4.fq`。读数可能是不同长度的混合。如果`-`指定，`bowtie2`则从“标准输入”或“标准输入”文件句柄中读取数据。
-S <sam>	将SAM对齐文件写入。默认情况下，对齐被写入“标准输出”或“标准输出”文件句柄（即控制台）。

3.1.2 可选参数（常用）

参数	解释
-q	读取（与指定`<m1>`，`<m2>`，`<s>`）是FASTQ文件。FASTQ文件通常有扩展名`.fq`或`.fastq`。FASTQ是默认格式。另见：`--solexa-quals`和`--int-quals`。
-p/--threads NTHREADS	启动`NTHREADS`并行搜索线程（默认值：1）。线程将在单独的处理器/内核上运行，并在解析读取和输出对齐时进行同步。搜索对齐高度平行，加速接近线性。提高`-p`增加的蝴蝶结2的内存占用。例如，当与人类基因组索引对齐时，`-p`从1增加到8会将内存占用增加数百兆字节。该选项仅在`bowtie`与`pthreads`库链接时才可用（即，如果`BOWTIE_PTHREADS=0`未在构建时指定）。
--local	在这种模式下，Bowtie 2不要求整个读取从一端到另一端对齐。相反，为了达到最大可能的对齐分数，可以从末端省略一些字符（“软裁剪”）

3.2 构建索引

3.2.1 官方索引

wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
unzip mm10.zip
rm mm10.zip make_mm10.sh

3.2.2 自建索引

这里以构建M. musculus, UCSC mm10 为例

wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 
tar -zxvf chromFa.tar.gz 
cat *.fa mm10.fa
bowtie2-build mm10.fa mm10

3.3 例子

3.3.1 例子：M. musculus, UCSC mm10

下载参考基因组

wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 
tar -zxvf chromFa.tar.gz 
cat *.fa mm10.fa

构建bowtie2索引文件

bowtie2-build mm10.fa mm10

运行bowtie2 获取 SAM 文件

bowtie2 -p 6 -3 5 --local -x mm10 -1 example_1.fastq -2 example_2.fastq -S SRR3208744.bam

这行命令表示使用--local的比对模式，使用 mm10 的索引；这里是双末端测序，所以将待比对文件 example_1.fq example_2.fa 分别输入，以 example.sam 的文件输出

如果为单末端测序的话，上述命令换为：

bowtie2 -p 6 -3 5 --local -x mm10 -U /opt/sdc/SRR/example.fastq -S example.sam

SAM 文件转为 BAM 文件

samtools sort example.sam > example.bam