blast数据库文档说明(2018-06-03)
blast数据库说明地址:ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html
更新于2017年3月6日
文档中主要描述NCBI-FTP站点下可用的BLAST数据库。
1 快速启动
- 为具有相同基名的数据库获取所有编号的文件:
这些文件中的每一个代表该数据库的子集(卷),并且所有这些文件都
需要重建数据库。 - 在提取之后,不需要连接生成的文件:
用数据库文件调用具有基名的数据库,使用"-db nr"。 - 为了便于下载,请使用BAST+包中的update_blastdb.pl脚本。
- 增量更新不可用
2 概论
在NCBI-BASIC主页的BASIC部分下的BLAST搜索页面使用一组标准的BLAST数据库,用于核苷酸、蛋白质和翻译的BLAST搜索。这些数据库可作为预格式化形式的压缩存档提供,并且可以从BLAST-FTP站点的/db目录中被download使用。FASTA文件驻留在/FASTA目录下。
预先格式化的数据库具有以下优点:
- 预格式化消除了运行 makeblastdb的需要;
- 每个数据库条目都包含物种级分类ID;
- 数据库被分解成更小的体积,因此更容易。
下载; - FASTA格式的序列可以从预格式化数据库生成
通过使用BLASTBCMD实用工具; - 在BLAST +包中有一个方便的脚本(update_blastdb.pl)可下载预格式化的数据库。
预格式化的数据库必须使用update_blastdb.pl脚本下载
在二进制模式下通过FTP。这个脚本的文档可以通过运行来获得。
没有任何参数的脚本;Perl安装是必需的。
下载的压缩文件必须用GZIP或其他解压缩程序膨胀。
工具。然后可以从生成的焦油中提取BLAST数据库文件。
使用UNIX/Linux上的TAR实用程序,或者WinZip和StuffIt扩展程序
Windows和Macintosh平台。
大型数据库被格式化为多个千兆字节卷,它们被命名为
使用碱基名称。所有具有相同基名的卷都是
必修的。提供别名文件以将单个卷捆绑在一起,以便
可以使用基名调用数据库(不使用.NAL或.PAL)。
延伸)。例如,要调用EST数据库,只需使用“-dB EST”选项即可。
在命令行中(没有引号)。
未在预格式化格式中提供的附加BLAST数据库
在FASTA子目录中可用。对于其他基因组爆破数据库,
请检查基因组FTP目录在:
FTP://FTPNCBI.NLM.NIH.GOV/GENOMESS/
3 /BLAST/DB/目录的内容
预格式化的BLAST数据库存档在该目录中。这些数据库及其内容的名称如下。
数据库名称第一部分
数据库名称第二部分
4 /BLAST/DB/FASTA目录的内容
此目录包含FAST-格式化的序列文件。文件名和数据库内容如下。这些文件必须在BLAST程序使用之前,通过BLASTBCMD进行解包和处理。
数据库.png
5 数据库更新
blast数据库定期更新。没有建立的增量更新方案。我们建议定期下载完整的数据库以保持它们的内容。
6。非冗余偏转句法
非冗余数据库是NR、NT和PATAA。相同的序列被合并到这些数据库中的一个条目中。要合并两个序列,必须具有相同的长度,并且每个位置上的每个残差必须相同。对于属于一个记录的不同条目的FASTA偏转由控件分隔,这是大多数程序不可见的字符。在下面的示例中,两个条目Q57 29 3.1和AAB05030.1具有相同的顺序,在各个方面。
单个序列现在简单地通过它们的访问版本来标识。
对于不属于官方NCBI序列数据库的数据库,如跟踪数据库,使用GNL协议。对于自定义数据库,应遵守本公约,每个序列的ID必须是唯一的,如果你想利用索引数据库的优势,使用BLASTBCMD程序实现特定的序列检索在BASIC可执行程序包中。应参考文献分布在独立的blast包中以获取更多细节。
7。将FASTA文件格式化为可扩展数据库
FASTA文件需要用makeblastdb进行格式化,然后才能在本地BLAST搜索中使用。对于那些来自NCBI的,推荐以下的makeblastdb命令:
对于核苷酸FASTA文件:
makeblastdb -in input_db -dbtype nucl -parse_seqids
用于蛋白质FASTA文件:
makeblastdb -in input_db -dbtype prot -parse_seqids
一般来说,如果数据库作为BLAST数据库可用,最好使用
预格式化数据库。
--- 以后再来修饰语句