生信在线数据库

宏基因组--基因预测

2019-06-06  本文已影响22人  晓佥

基因预测(识别)两种方法:

间接识别法(Extrinsic Approach)
通过相似性比对,从已知基因和蛋白质序列中得到间接证据。BLAST
缺点:测定mRNA或蛋白质序列的成本高昂,而且在复杂的生物体中,任意确定的时刻往往只有一部分基因得到了表达。

从头计算法(Ab Initio Approach)
基于各种统计模型和算法从头预测。
优点:构成蛋白质编码的序列构成一个连续的开放阅读框(内容),其长度约为数百个到数千个碱基对(依据该长度区间可以筛选合适的密码子)。除此之外,原核生物的蛋白质编码还具有其他一些容易判别的统计学的特征。这使得对原核生物的基因预测能达到相对较高的精度。

GeneMark* software

http://topaz.gatech.edu/GeneMark/license_download.cgi
安装:



下载后需:
1.gunzip gm_key64.gz
2.mv gm_key64 gm_key (重命名)
3.拷贝权限:cp gm_key ~/.gm_key

举例:
这里的sequence.mfa为你预测组装出来的contig序列
Example 1:
gmhmmp -m MetaGeneMark_v1.mod sequence.mfa
Predictions will be in file "sequence.mfa.lst" in default GeneMark.hmm format .

Example 2:
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod -o sequence.gff -A prot.fa -D nucl.fa sequence.mfa
Predictions will be in file "sequence.gff" in GFF format with nucleotide and protein sequences for each predicted gene.
结果展示:


GeneMark网页版:

http://topaz.gatech.edu/GeneMark/gm.cgi

其他基因预测软件

http://www.geneprediction.org/software.html

上一篇 下一篇

猜你喜欢

热点阅读