Maker基因组组装基因组组装

使用MAKER进行注释: 学习MAKER的配置参数

2020-07-01  本文已影响0人  xuzhougeng

MAKER配置文件详解

本文翻译自http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/The_MAKER_control_files_explained

MAKER会生成三个配置文件,如下

这里主要介绍maker_opts.ctl, 其余配置文件直接看配置文件里面的注释信息即可。

基因组

用于设置被注释的基因组序列的位置和物种类型,包括genomeorganisam_type两项

需要注意的是,基因组序列的N50需要超过预期基因长度的中位数,否则注释效果不好。另外最好保证基因组序列只包括A,T,C,G,N, 对于其他类型兼并碱基可以都改成N.

使用MAKER得到GFF3进行重注释

这一项基本上我们用不上,它是在当你把MAKER的中间输出文件都删除了,仅保留了输出的GFF3文件时,你可以用之前相同的输入设置重新运行流程得到相同的输出。

#-----Re-annotation Using MAKER Derived GFF3
maker_gff= #MAKER derived GFF3 file
est_pass=0 #use ESTs in maker_gff: 1 = yes, 0 = no
altest_pass=0 #use alternate organism ESTs in maker_gff: 1 = yes, 0 = no
protein_pass=0 #use protein alignments in maker_gff: 1 = yes, 0 = no
rm_pass=0 #use repeats in maker_gff: 1 = yes, 0 = no
model_pass=0 #use gene models in maker_gff: 1 = yes, 0 = no
pred_pass=0 #use ab-initio predictions in maker_gff: 1 = yes, 0 = no
other_pass=0 #passthrough anyything else in maker_gff: 1 = yes, 0 = no

EST/转录本证据

出于历史原因, MAKER还是用EST代表了之前的EST数据和目前的转录组数据。 此处不只是使用EST数据,而是可以使用组装的mRNA-seq, 组装的全长cDNA。 我们预期他们能够正确的组装,并联配到正确的剪切位点(对于FASTA格式,MAKER使用exonerate找到剪切位点)。用途如下:

设置项如下:

同源蛋白证据

和之前的转录组数据类似,用途如下

建议使用 uniprot/swiss-prot 或 RefSeq上的NP数据,因为经过人工审查,可信度较高。不建议是用UniProt/tremble或者Genbank上的数据,这些数据的可信度较低。你可以挑选几个同源物种的高可信度蛋白。或者使用MAKER注释的其他物种AED小于0.5的转录本产物。

由于许多注释里包含一些死亡转座子(dead transposons)或伪基因(pseudogenes),因此不建议使用临近物种的所有注释蛋白。我们想象一个比较糟糕的情况,如果你有邻近物种的死亡转座子,当你构建你的重复序列屏蔽文库时,你发现其中一个条目和该序列匹配。 于是你假设这是一个真实的基因,于是你从屏蔽文库中删除了该条目。吸纳子啊,当你注释基因组的时候,该基因变成了注释集中的一整个基因组家族,但这其实是糟糕的证据和重复序列屏蔽所导致的后果。

需要设置的就两项:

重复序列重复屏蔽

我们可以通过屏蔽重复序列来避免EST和蛋白比对到重复区域,防止基因预测算法在这些区域预测外显子。由于许多重复序列会编码真实的蛋白(例如反转座子等),基因预测工具和比对工具会被他们所迷惑(会在一个基因中错误的加上外显子)

从头基因预测

如果你需要从MAKER以外获取基因模型,则需要在这一节添加相应的配置。根据可信度高低,MAKER会对这些基因模型采取不同的行为。

其他类型的注释

这一项功能很简单,就是提供一个GFF文件,在MAKER运行结束后增加里面的信息

外部程序选项

这里的两个参数用于影响外部程序,即BLAST的行为

MAKER行为选项

这里的选项用于调整MAKER的行为,使其符合你的基因组特性

上一篇下一篇

猜你喜欢

热点阅读