TaxonKit
1. 官网
TaxonKit
2. GitHub
https://github.com/shenwei356/taxonkit
3.0 Reference
Note
: Reference主要包括以下几个文件
names.dmp
,nodes.dmp
,delnodes.dmp
,merged.dmp
等
下载地址:https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/
下载文件名:taxdump.tar.gz
3. taxonkit lca (lowest common ancestor)
计算一组
TaxID
的共同最近的ancestor TaxID
taxonkit lca -D -U -s "," --threads 10 --data-dir path/to/reference taxid.file -o output.name
-D
: 忽略Deleted
的TaxID
-U
: 忽略Unfound
的TaxID
-s
: 用来指定分隔符,默认是空格
-o
: 用来指定输出文件名
--data-dir
:reference
所在目录
taxid.file
:TaxID 文件
;用来计算lca
的一组TaxID
应该放在同一行,只能使用空格
分隔;不同组放在不同的行
taxonkit lca
Note
: 每组的TaxID
的lca
结果放置在这组TaxID
的最后
4. taxonkit list
给出一个
TaxID
的所有子 TaxID
taxonkit list --ids taxid -n -r --indent " " --data-dir /path/to.reference
taxonkit list
--ids
: 后跟TaxID
-n
: 展示TaxID
对应的name
-r
: 展示TaxID
对应的rank
5. taxonkit lineage
列出
TaxID
所属的所有Rank
,只是向上追溯,功能与taxonkit list
形成互补
taxonkit lineage --data-dir path/to/reference -R -t -n -r taxid.file
-R
: 展示所有Rank
的name
-t
: 展示所有Rank
的TaxID
-n
: 展示scentific name
-r
: 展示所有Rank
的级别
taxid.file
: 注意每个TaxID
放在一行
6. taxonkit reformat
重新整理输出的
Rank
的结果,一般跟在taxonkit lineage
后面使用
taxonkit lineage --data-dir path/to/reference taxid.file | taxonkit reformat -r "Missed_Rank" -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" --data-dir path/to/reference|awk -F "\t" 'BEGIN{print "TaxID""\t""Kingdom""\t""Phylum""\t""Class""\t""Order""\t""Family""\t""Genus""\t""Species"}{print $1"\t"$3"\t"$4"\t"$5"\t"$6"\t"$7"\t"$8"\t"$9}'
-r "Missed_Rank"
: 对每个TaxID
来说,缺少的Rank
用Missed_Rank
来代替
Note : 最小一级的名称是当前
TaxID
所代表的名称,后面的都会用Miss_Rank
来补齐
输出结果:
输出结果