从头预测基因-GlimmerHMM

2020-05-07 本文已影响0人斩毛毛

GlimmerHMM是基于Generalized Hidden Markov Model (GHMM)进行基因预测，GlimmerHMM把一个基因看做几种特征序列（状态）的有序切换，这些特征序列包括内含子，基因间隔区，四种外显子（第一个外显子，中间的外显子，最后一个外显子，唯一的外显子），切换的过程形成马尔科夫链。

该软件的一些假设

每个基因开始于起始密码子ATG（but partial genes can be predicted）
每个基因阅读框内除最后一个密码子外没有终止密码子（no in-frame stop codons）
每个外显子与前一个外显子在同一个阅读框中。（翻译阅读时外显子间没有移框）

优点：GlimmerHMM的搜索范围下降，从而计算效率得以提高。
缺点：真正的移框外显子（genuine frame shifts）无法被检测到。

软件安装

戳👇这里进去下载即可
戳我
减压缩即可使用

模型训练

GlimmerHMM需要一个训练数据集，包含尽可能多的来自生物体基因组的完整编码序列，用于进行基因预测，目前训练的模型有拟南芥，水稻，人类，斑马鱼，线虫

数据收集

（1）已经有良好实验背景的该物种基因信息（理想状况，一般不会太多）
（2）从非冗余蛋白数据库（nr）中搜索能够map到基因组上的长ORFs（大于500bp），获取外显子位置信息（比较常见）
（3） PASA？

开始训练

trainGlimmerHMM <mfasta_file> <exon_file> [optional_parameters]

其中 $\color{red}{mfasta_file}$ 为fasta的序列文件（下载的近源物种基因组序列无需整理）

>seq1
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTT
CTAGCTAGCTAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGC
>seq2
TTTAGCTAGCTAGCATAGCATACGAGCATATCGGTAGACTGATTGGGTTTA
TGCGTTA

$\color{red}{exon_file}$ 为外显子位置信息，这个文件要求与mfasta_file一致：序列名称一致，位置序号正确指代mfasta_file的序列，不同的序列之间用空行隔开。

seq1 5 15
seq1 20 34

seq1 50 48
seq1 45 36

seq2 17 20

这个例子中，序列sep1具有两个基因，第一个在先导链上（the direct strand）后一个在互补链上，每个基因有两个外显子。
这里有一份真实的mfasta_file和exon_file，可用于理解exon_file。

如果训练集中序列太少，程序会自动警告并且退出，默认情况下要求至少50个具有完整起始密码子（ATG）和终止密码子（TAA/TAG/TGA）的基因在训练集中。

运行GlimmerHMM

glimmerhmm_linux fasta.file -d trained_dir/arabidopsis -g -n 1

#参数
-g Print output in gff format
-n Print top n best predictions

从头预测基因-GlimmerHMM

软件安装

模型训练

数据收集

开始训练

运行GlimmerHMM

猜你喜欢

热点阅读