从头预测基因-GlimmerHMM

2020-05-07  本文已影响0人  斩毛毛

官网手册戳这里

GlimmerHMM是基于Generalized Hidden Markov Model (GHMM)进行基因预测,GlimmerHMM把一个基因看做几种特征序列(状态)的有序切换,这些特征序列包括内含子,基因间隔区,四种外显子(第一个外显子,中间的外显子,最后一个外显子,唯一的外显子),切换的过程形成马尔科夫链。

该软件的一些假设

优点:GlimmerHMM的搜索范围下降,从而计算效率得以提高。
缺点:真正的移框外显子(genuine frame shifts)无法被检测到。

软件安装

戳👇这里进去下载即可
戳我
减压缩即可使用

模型训练

GlimmerHMM需要一个训练数据集,包含尽可能多的来自生物体基因组的完整编码序列,用于进行基因预测,目前训练的模型有拟南芥,水稻,人类,斑马鱼,线虫

(1)已经有良好实验背景的该物种基因信息(理想状况,一般不会太多)
(2)从非冗余蛋白数据库(nr)中搜索能够map到基因组上的长ORFs(大于500bp),获取外显子位置信息 (比较常见)
(3) PASA?

trainGlimmerHMM <mfasta_file> <exon_file> [optional_parameters]

其中 \color{red}{mfasta_file} 为fasta的序列文件(下载的近源物种基因组序列无需整理)

>seq1
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTT
CTAGCTAGCTAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGC
>seq2
TTTAGCTAGCTAGCATAGCATACGAGCATATCGGTAGACTGATTGGGTTTA
TGCGTTA

\color{red}{exon_file}为外显子位置信息,这个文件要求与mfasta_file一致:序列名称一致,位置序号正确指代mfasta_file的序列,不同的序列之间用空行隔开。

seq1 5 15
seq1 20 34

seq1 50 48
seq1 45 36

seq2 17 20

这个例子中,序列sep1具有两个基因,第一个在先导链上(the direct strand)后一个在互补链上,每个基因有两个外显子。
这里有一份真实的mfasta_fileexon_file,可用于理解exon_file

如果训练集中序列太少,程序会自动警告并且退出,默认情况下要求至少50个具有完整起始密码子(ATG)和终止密码子(TAA/TAG/TGA)的基因在训练集中。

运行GlimmerHMM

glimmerhmm_linux fasta.file -d trained_dir/arabidopsis -g -n 1

#参数
-g Print output in gff format
-n Print top n best predictions
上一篇 下一篇

猜你喜欢

热点阅读