创建细菌NR子库

2019-05-22  本文已影响0人  赵会成

可以在检索框输入txid2[Organism],左侧选择细菌古菌

Taxonomy IDs

Microsporidia 6029 txid6029[ORGN]

Archaea 2157 txid2157[ORGN]

Bacteria 2 txid2[ORGN]

Eukaryota 2759 txid2759[ORGN]

Viruses 10239 txid10239[ORGN]

Streptococci 1301 txid1301[ORGN]

https://www.ncbi.nlm.nih.gov/protein/

Send toFile Download614536690 items.Format accession List

实际上文件太大,无法下载,然后咋办呢,下载NCBI的TaxonKit软件,解压,接着:

http://bioinf.shenwei.me/taxonkit/download/

http://bioinf.shenwei.me/csvtk/download/

将taxonkit放到环境变量中

sudo cp taxonkit /usr/local/bin/

sudo cp csvtk /usr/local/bin/

数据库

nodes.dmp taxid树的结构

names.dmp taxid对应的物种名

wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz

wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz

taxonkit list --data-dir ~/taxdump/ --ids 2 --indent "" > 2.taxid.txt

wc -l 2.taxid.txt

zcat prot.accession2taxid.gz |csvtk -t grep -f taxid -P 2.taxid.txt |csvtk -t cut -f accession.version >2.taxid.acc.txt

建立NR子库

blastdb_aliastool -seqidlist 2.taxid.acc.txt -db nr -out nr_2 -title nr_2

然后实际上有一些环境样品的注释信息,对注释帮助不大,用开头的方法,检索框输入

"environmental samples"[organism] OR metagenomes[orgn]

awk '{print $0}' 2.taxid.acc.txt env_unculture.seq |sort | uniq -u > acc

http://www.bioinfo-scrounger.com/archives/207

https://bioinf.shenwei.me/taxonkit/tutorial/

上一篇下一篇

猜你喜欢

热点阅读