生信小白

生物信息百Jia软件(七):glimmer

2019-08-04  本文已影响4人  基因学苑

编者按

欢迎关注微信公众号:基因学苑,更多精彩内容等你发掘!

前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。

一、功能分类: 

原核生物基因预测

二、软件官网:

http://ccb.jhu.edu/software/glimmer/index.shtml

三、软件介绍:

Glimmer是用于原核生物基因组预测的工具,只要输入原核生物基因组即可得到其基因信息。不过该软件最终结果只是基因的位置信息,需要额外程序将基因从基因组上提取出来,并翻译成对应的氨基酸序列。

四、下载安装: 

tar-zxvfglimmer302b.tar.gz

cdglimmer3.02

make

五、软件使用: 

glimmer并不能像prodigal那样,一步完成工作。Glimmer做基因预测一般需要2个步奏。首先是建立预测的模型,第二步是利用模型来对基因组进行基因预测。模型也叫训练集,也就是先让软件了解基因的一些特征,这样软件就能根据已知的信息,来推测未知的信息。

建立模型采用build-icm程序来完成。build-icm的输入有三种。

1、某基因组的已知信息;

2、通过long-orfs产生的长的无重叠的orfs;

3、高度相似的物种的基因。

可以选用自身作为训练集来作为模型。

首先要将输入文件格式化到一条。

首先我们将多条fasta文件合并成一条,可以使用sed 命令完成。

sed-e'/>/d'K12.fna |tr -d'\n'|awk'BEGIN {print ">wholefile"}{print$0}'>wholefile

这样就可以用作long-orfs的输入了。

运行long-orfs产生无重叠的orfs

long-orfs -n -t1.15$wholefile $tagname.longorfs1>/dev/null2>/dev/null

然后运行extract来提取训练集

extract-t$wholefile$tagname.longorfs >$tagname.train2>/dev/null

这样训练集就处理好了。

如果有某基因组的已知基因,或者高度相似的物种基因不用以上三个步骤,接下来我们运行bulid-icm通过训练集,来生产预测的模型,用于基因预测

build-icm  -r $tagname.icm < $tagname.train1>/dev/null2>/dev/null

最后我们就可以直接运行glimmer3来完成基因预测。

glimmer3 -o50 -g110 -t30  [options]

六、使用案例: 

sed -e'/>/d'ref.fna |tr -d'\n'|awk'BEGIN {print ">wholefile"}{print $0}'>wholefile

long-orfs -n -t1.15wholefile tagname.longorfs1>/dev/null2>/dev/null

extract -t wholefile tagname.longorfs > tagname.train2>/dev/null

build-icm  -r tagname.icm < tagname.train1>/dev/null2>/dev/null

glimmer3 -o50 -g110 -t30 ref.fna tagname.icm ref

七、注意事项:

1、glimmer得到的结果是列表格式,需要自行根据列表将序列提取出来;

2、这里面注意一下基因的方向以及密码子的选择。原核生物选择第11套密码子表,如果是支原体要选择第四套密码子表。

上一篇下一篇

猜你喜欢

热点阅读