使用bioawk对fasta文件进行序列分析

2022-04-12 本文已影响0人花生学生信

最近在做水稻基因组注释，对于注释结果进行整理过滤，还在探索中。

evm注释结果

将结果转化成蛋白文件：

gffread H7L1.EVM.all.gff -g ~/task/222anno/21/data/H7L1.arrow.polish.fasta -y cds.fa

提取长度大于100bp的序列

bioawk -c fastx 'length($seq) > 100{ print ">"$name; print $seq }'  cds.fa > 100.fa

查看结果：

共有41659条注释结果

对比过滤前

但是不同群体注释的结果差异较大，目前还在探索中，以后结果会更新。