生信小白科研信息学

生物信息百Jia软件(三):Muscle

2019-08-01  本文已影响13人  基因学苑

编者按

欢迎订阅微信公众号:基因学苑

前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。

一、功能分类: 多序列比对

二、软件官网:

http://www.drive5.com/muscle/

三、软件介绍:

MUSCLE(Multiple Protein Sequence Alignment)。它是一款非常简单好用的软件,muscle也是肌肉的意思,也寓意此款软件功能强劲有力。

muscle是在2004年公布的一款蛋白质水平多序列比对的开源软件,在速度和精度上都优于ClustalW。比对速度快。因此在进行多序列比对的时候,大多数情况下可以优先使用Muscle。例如Mega等软件里面也集成了muscle的多序列比对。

Muscle同样可以用于DNA的多序列的比对。使用起来十分方便,大多数情况下用户只需要指定输入输出文件即可。它是适合于多序列比对,多个序列之间具有同源关系,并且具有同一方向,muscle需要对序列进行拉伸,例如适合同一个或多个看家基因、16s等放在一起比对。我们同样也可以将多样品的SNP结果连接起来进行多序列比对,做系统发育分析。所以对于我们使用muscle主要需要做的就是将输入文件格式化为满足muscle输入即可,主要就是fasta格式。

四、下载安装

wget http://www.drive5.com/muscle/downloads3.8.31/muscle3.8.31_i86linux64.tar.gz

tar -zxvf muscle3.8.31_i86linux64.tar.gz

mv muscle3.8.31_i86linux64  muscle

五、软件使用:

选项参数:

-in 输入文件,必须为fasta 格式的序列文件

-out 输出文件,默认输出为mfa格式

-diags 适用于输入序列同源性比较高的序列

-maxiters 最大迭代次数,默认为16

-maxhours 最长迭代时间,默认无限制

-clw 输出CLUSTALW 格式的结果

-clwstrict 同-clw,输出文件的头部包含 “CLUSTAL W (1.81)” 字样

-html 输出HTML 格式结果

-msf 输出msf 格式结果

-log[a] 日志文件,-loga 表示添加,-log 则直接覆盖已有日志文件

-quiet 不要向标准错误流打印进度信息

-stable 按着输入文件中

-group 按着序列的相似度

-version 版本信息

六、使用案例:

现有一个包含多序列的fasta格式文件multi.fasta

muscle -in multi.fasta -out ex1.mfa

muscle -in multi.fasta -out ex1.clw -clw

七、注意事项:

1、Muscle是多序列比对软件,它与Blast和Mummer是完全不同的,这些工具适合全基因组比对;

2、序列的方向要一致;

上一篇下一篇

猜你喜欢

热点阅读