使用bioawk对fasta文件进行序列分析

2022-04-12  本文已影响0人  花生学生信

最近在做水稻基因组注释,对于注释结果进行整理过滤,还在探索中。

evm注释结果


将结果转化成蛋白文件:

gffread H7L1.EVM.all.gff -g ~/task/222anno/21/data/H7L1.arrow.polish.fasta -y cds.fa

提取长度大于100bp的序列

bioawk -c fastx 'length($seq) > 100{ print ">"$name; print $seq }'  cds.fa > 100.fa 

查看结果:


共有41659条注释结果

对比过滤前


但是不同群体注释的结果差异较大,目前还在探索中,以后结果会更新。

上一篇下一篇

猜你喜欢

热点阅读