nature颜铎

ncbi nr 数据库提取fasta

2020-06-03  本文已影响0人  胡童远

在nr库这里挣扎许久了。数据库太大,下载和建库都很困难。下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的blast,默认是单线程,需要另外configure)。

一、直接下载nr blast库

ncbi ftp:ftp://ftp.ncbi.nih.gov/blast/db/

wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz

因为是拆分好的,下载速度还可以,完全依赖网速。
ascp也许更快吧:NR数据库简介

二、blastp nr 注释

blastp \
-db /home/cheng/Databases/NCBI_nr/nr \
-query Result/prokka/genome_prokka.faa \
-out Result/nr/genome_nr.txt \
-qcov_hsp_perc 80 \
-outfmt 6 \
-evalue 1e-5 \
-num_threads 52

问题1:无法使用多线程
问题2:blastp版本不够。BLAST Database error: Error: Not a valid version 4 database.
源码安装最新版:源码安装blast+及安装和配置GPU-Blast
方案1:获取fasta自行建库
方案2:使用新版blast

试试方案1:

三、从nr blast 库提取fasta

blastdbcmd -db nr -entry all -dbtype prot -out test.fa
BLAST Database error: Error: Not a valid version 4 database
/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa

nr.04数据库不全,尝试ascp重新下载

四、ascp下载nr.*.tar.gz

wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
export PATH=$PATH:/home/cheng/.aspera/connect/bin  # 添加bin到系统环境变量,每个终端都要用一下
cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/  # 复制文件下的密钥文件到主目录下
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
sudo cp aspera-license /usr/local/bin/  # etc目录下,复制证书到系统目录下 (需要root权限)
ascp -i ~/asperaweb_id_dsa.putty -anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./
ascp -i ~/asperaweb_id_dsa.openssh -QTr -l 6000m anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./

终究还是用了wget...

五、nr blast 库提取fasta

/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
>EFG1759503.1 decarboxylating NADP(+)-dependent phosphogluconate dehydrogenase [Escherichia coli]
LKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDG
EPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDG
NYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKEQRVAASKVLSGPQAQPAGDKGEFIEKVRRALY
LGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYIENPQIANLLLAPYFKQIADNYQQALRE
VVAYAVQNGIPVPTFAAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWL
>KJX92028.1 hypothetical protein TI39_contig5958g00003 [Zymoseptoria brevis]
。。。
上一篇 下一篇

猜你喜欢

热点阅读