2022-09-03 NR 动物数据库构建方法2

2022-09-02  本文已影响0人  生信圈

部分可参考前一篇我发布的方法

1.安装taxonkit

conda install -c bioconda taxonkit

试运行taxonkit

taxonkit list -j 2 --ids 33208 --indent ""

参数说明:

-j :线程数;

--ids:需要提取的分类的taxid;动物是33208

--data-dir:该目录下必须包含文件names.dmp和nodes.dmp;没有文件会报错,根据提示移动文件即可

--indent:提取的物种编号缩进位置,这个参数很重要,记得一定要设置为空 ""

2.移动一些必要文件,例如:

cp nodes.dmp ~/.taxonkit

cp names.dmp ~/.taxonkit

3.测试一下

grep -P "\|\s+[Aa]nimal\w*\s*\|" ~/.taxonkit/names.dmp

可以看到animal对应33208

4正式提取

taxonkit list -j 2 --ids 33208 --indent "" > taxonkit.ani.txt

5.csvtk

conda install -c bioconda csvtk

cat prot.accession2taxid | csvtk -t grep -f taxid -P taxonkit.ani.txt | csvtk -t cut -f accession.version > ani.taxid.acc.txt

wc -l ani.taxid.acc.txt

57632930

6.构建NR-animal库(操作同方法1)

seqkit grep -f ani.taxid.acc.txt nr -o animals

seqkit grep -f ani.taxid.acc.txt 你的nr文件地址 -o animals输出名称

7构建diamond索引

diamond makedb --in animals -d animals

参考:

https://www.jianshu.com/p/1d6edfcb4110

https://www.pudn.com/news/6297202ee74b9677e8fa44bb.html

https://zhuanlan.zhihu.com/p/556971474

上一篇 下一篇

猜你喜欢

热点阅读