本地Blast配置
https://qinqianshan.com/ngs/mapping/localized-blast/
http://blog.shenwei.me/local-blast-installation/
https://www.cnblogs.com/leezx/p/6425620.html?utm_source=itdadao&utm_medium=referral
http://www.bioinfo-scrounger.com/archives/77
安装配置BLAST+
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.2.30+-x64-linux.tar.gz
tar -zxvf ncbi-blast-2.2.30+-x64-linux.tar.gz
mv ncbi-blast-2.2.30+ ~/local/app/
cd ~/local/app/
mv ncbi-blast-2.2.30+ blast
echo "export PATH=/db/home/liu507/local/app/blast/bin:\$PATH" >> ~/.bashrc
source ~/.bashrc
配置本地的BLAST库
cat .ncbirc
[BLAST]
BLASTDB=/home/hsi/blast/db
数据库下载地址
Nt/Nr数据库:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/(直接使用)
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/(需建索引)
KOG/COG 数据库:ftp://ftp.ncbi.nlm.nih.gov/pub/COG/KOG/
Swiss-Prot/TrEMBL/UniRef90数据库:http://www.uniprot.org/downloads
建索引
makeblastdb -in input.fasta -dbtype molecule_type -title database_title -parse_seqids -out database_name -logfile File_Name
-dbtype nucl为核酸,prot为蛋白
-title 给数据库起个名
-parse_seqids 推荐加上
-out 后接数据库名,以后blast+搜索时要用到的-db的参数
-logfile 日志文件,如果没有默认输出到屏幕
核酸序列比对核酸数据库:
blastn -query x.fasta -db yyy -out zz.xml -evalue 1e-5 -max_target_seqs 5 -outfmt 5 -num_threads 20
不同物种之间e-5,同物种间e-10,线程数最多12
核酸序列比对蛋白质数据库:
blastx -query -out -db -outfmt 5 -evalue 1e-5 -max_target_seqs 5 -num_threads 20
BLASTN参数max_target_seqs和num_alignments应该是一样的
https://segmentfault.com/a/1190000015831475
插一句:
Blast+ xml格式解读
本地BLAST比对后,如果使用outfmt 5参数的话,会产生一个xml格式的文件。
1. 每条序列的所有对比信息是以标记Iteration开始,/Iteration结束,之间框在一起的则是一条序列的所有比对结果信息
2. 每条序列的比对结果是以标记Iteration_hits开始,/Iteration_hits结束,框架下面还有Hit表示序列的每个比对结果(是指一条序列比对上对应的一条满足阈值的序列),而Hsp则表示每个比对结果中的某一块的比对结果(比如一条序列上有好几处跟目标序列比对上了)
参考
http://www.bioinfo-scrounger.com/archives/82