使用bioawk对fasta文件进行序列分析
2022-04-12 本文已影响0人
花生学生信
最近在做水稻基因组注释,对于注释结果进行整理过滤,还在探索中。
evm注释结果
将结果转化成蛋白文件:
gffread H7L1.EVM.all.gff -g ~/task/222anno/21/data/H7L1.arrow.polish.fasta -y cds.fa
提取长度大于100bp的序列
bioawk -c fastx 'length($seq) > 100{ print ">"$name; print $seq }' cds.fa > 100.fa
查看结果:
共有41659条注释结果
对比过滤前
但是不同群体注释的结果差异较大,目前还在探索中,以后结果会更新。