本地化BLAST+详细使用方法

2018-08-02 本文已影响0人 Boer223

序列相似性搜索是重要的生物信息学研究之一，常常为新测序基因组或序列片段的功能提供参考，而BLAST是这一系列工具中最流行的相似性搜索工具。1989年，美国国家生物技术信息中心（NCBI）首次推出BLAST。自第一版以来，NCBI一直在维护和更新BLAST版本。 2009年，NCBI推出了新版本的独立式BLAST应用程序（BLAST +），现在的版本已更新到2.7.1。BLAST+与BLAST相比，有很多改进和提高，可以加快搜索速度，并在输出格式和搜索输入方面提供更大的灵活性，主要有以下几点：

分割较长的查询序列以减少内存使用，并且充分利用现代CPU的运算能力；
使用数据库索引来显著加快搜索的速度;
具有保存稍后可用于开始新一轮搜索的“搜索策略”的能力;
在表格式结果的格式化方面具有更大的灵活性。

NCBI强烈推荐放弃BLAST，使用BLAST+，这里说的BLAST和BLAST+，都是本地的，与那个批量BLAST小程序不是一回事。BLAST+下载地址：NCBI BLAST+ 。

BLAST+的一般用法如下：

格式化数据库

makeblastdb -in db.fasta -dbtype prot -out dbname

参数说明:

-in：待格式化的序列文件

-dbtype：数据库类型，prot或nucl

-out：数据库名

蛋白序列比对蛋白数据库（blastp）

blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

参数说明:

-query：输入文件路径及文件名

-out：输出文件路径及文件名

-db：格式化了的数据库路径及数据库名

-outfmt：输出文件格式，总共有12种格式，6是tabular格式对应之前BLAST的m8格式

-evalue：设置输出结果的e-value值

-num_threads：线程数

核酸序列比对核酸数据库（blastn）以及核酸序列比对蛋白数据库（blastx）

与上面的blastp用法类似：

blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

以上的参数说明只是一些常用的参数，完整的参数说明可以用-help查询，关于BLAST的详细介绍可以参考BLAST的官方文档。

参考：

有个博客：BLAST+使用方法
BLAST® Command Line Applications User Manual [Internet].

本地化BLAST+详细使用方法

BLAST+的一般用法如下：

猜你喜欢

热点阅读