使用seqkit批量替换序列ID
2022-09-24 本文已影响0人
惊鸿影
在进行组装和比对过程中,要将测序ID替换成物种学名,一个一个替换太慢了,发现seqkit有这个功能。
seqkit replace --ignore-case --kv-file rename.txt --pattern "^(\w+)" --replacement "{kv}" genome.fa -o genome.new.fa
rename.txt 就是改名列表,第一列是原ID,第二列是新ID,中间用tab隔开。 genome.fa 是需要改ID的文件名,genome.new.fa 是新生成的改ID后的文件名。特别要注意的是列表中一定要包含所有的ID,不然他会将列表中不包含的ID改成空白
GN002 Drymonia_coccinea_GN002
GN003 Glossoloma_anomalum_GN003
GN004 Moussonia_elegans_GN004
改名前
image.png
改名后
image.png