使用bioawk对基因组fasta序列ID(染色体/scaffo
2021-04-22 本文已影响0人
生物信息与育种
需求
已知某基因组序列,染色体或scaffold ID顺序不定,想要对其按数字排序。
![](https://img.haomeiwen.com/i7698829/731ae31d35eb9313.png)
原顺序:
![](https://img.haomeiwen.com/i7698829/c20660497ffdae7a.png)
想要的排序结果:
![](https://img.haomeiwen.com/i7698829/017211ca0128c8ea.png)
实现
使用bioawk,没有的话conda直接安装。
bioawk -c fastx '{print}' old.genome.fa | \
sort -k1,1V | awk '{print ">"$1;print $2}' >new.genome.fa