【基因组注释】同源注释比对软件tblastn、gamp和exon
2021-04-16 本文已影响0人
生物信息与育种
基因结构预测中同源注释策略,将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中,在文章中通常使用以下比对软件:
- tblastn
- gamp
- exonerate
- blat
根据我的实测,以上软件整体都比较慢。gmap可设置多线程来提升速度。tblastn虽然也可以,但对提速没什么影响。exonerate和gamp巨吃内存。
以下是跑的资源情况。我的组装基因组约400Mb。tblastn的查询序列311764条,gmap的查询序列1483791条,exonerate的查询序列43632条。
另有一款软件 spaln:https://github.com/ogotoh/spaln,据说很快。但文档比较费解,我懒得摸索,暂时还没用起来。
因此,我的建议是如果你的服务器配置很高,首选gmap多设线程。配置不高或者想快速获得结果情况下,可拆分query序列(蛋白/cDNA/mRNA/EST),进行并行比对,最后进行合并。尤其是tblastn之类的软件,必须这样才行。否则建议尝试用spaln(影响力较低,没用过,还不好说)。