生物信息学与算法Biostar Handbook学习小组

BLAST-The learning notes of the 

2017-12-03  本文已影响26人  Hypdoctor

Basic Local Alignment Search Tool (BLAST)

个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法。 已知一个包含若干序列的数据库,BLAST可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。 例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个BLAST搜索来确认人类是否包含类似的基因(通过序列的相似性)。BLAST算法以及实现它的程序由美国国家生物技术信息中心(NCBI)的Warren Gish、David J. Lipman及Webb Miller博士开发的。(from wikipedia)

A suite of tools


The key concepts of BLAST

-Search may take place in nucleotide and/or protein space or translated spaces where nucleotides are translated into proteins.
-Searches may implement search “strategies”: optimizations to a certain task. Different search strategies will return different alignments.
-Searches use alignments that rely on scoring matrices
-Searches may be customized with many additional parameters. BLAST has many subtle functions that most users never need.

使用BLAST 的基本步骤


Build a blast database

mkdir -p ~/refs/ebola
efetch -db nucleotide -id KM233118 --format fasta > ~/refs/ebola/KM233118.fa

makeblastdb -in ~/refs/ebola/KM233118.fa -dbtype nucl -out ~/refs/ebola/KM233118


esearch -db protein -query PRJNA257197 | efetch -format fasta > index/all-proteins.fa
makeblastdb -in index/all-proteins.fa -dbtype prot -out index/all -parse_seqids
blastdbcmd -db index/all -entry 'all' -outfmt "%a" | head

BLAST database的下载


mkdir -p ~refs/refseq
cd ~/ref/refseq
update_blastdb.pl | more
#下载16 microbial database
update_blastdb.pl 16SMicrobial --decompress
update_blastdb.pl taxdb --decompress
#将数据路径加入系统环境变量,这也是分类检索所必须的(for MAC)
echo "export BLASTDB=$BLASTDB:~/refs/refseq/" >> ~/.bahs_profile
source ~/.bash_profile

