生物信息百Jia软件(三):Muscle
编者按
欢迎订阅微信公众号:基因学苑
前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。
一、功能分类: 多序列比对
二、软件官网:
http://www.drive5.com/muscle/
三、软件介绍:
MUSCLE(Multiple Protein Sequence Alignment)。它是一款非常简单好用的软件,muscle也是肌肉的意思,也寓意此款软件功能强劲有力。
muscle是在2004年公布的一款蛋白质水平多序列比对的开源软件,在速度和精度上都优于ClustalW。比对速度快。因此在进行多序列比对的时候,大多数情况下可以优先使用Muscle。例如Mega等软件里面也集成了muscle的多序列比对。
Muscle同样可以用于DNA的多序列的比对。使用起来十分方便,大多数情况下用户只需要指定输入输出文件即可。它是适合于多序列比对,多个序列之间具有同源关系,并且具有同一方向,muscle需要对序列进行拉伸,例如适合同一个或多个看家基因、16s等放在一起比对。我们同样也可以将多样品的SNP结果连接起来进行多序列比对,做系统发育分析。所以对于我们使用muscle主要需要做的就是将输入文件格式化为满足muscle输入即可,主要就是fasta格式。
四、下载安装
wget http://www.drive5.com/muscle/downloads3.8.31/muscle3.8.31_i86linux64.tar.gz
tar -zxvf muscle3.8.31_i86linux64.tar.gz
mv muscle3.8.31_i86linux64 muscle
五、软件使用:
选项参数:
-in 输入文件,必须为fasta 格式的序列文件
-out 输出文件,默认输出为mfa格式
-diags 适用于输入序列同源性比较高的序列
-maxiters 最大迭代次数,默认为16
-maxhours 最长迭代时间,默认无限制
-clw 输出CLUSTALW 格式的结果
-clwstrict 同-clw,输出文件的头部包含 “CLUSTAL W (1.81)” 字样
-html 输出HTML 格式结果
-msf 输出msf 格式结果
-log[a] 日志文件,-loga 表示添加,-log 则直接覆盖已有日志文件
-quiet 不要向标准错误流打印进度信息
-stable 按着输入文件中
-group 按着序列的相似度
-version 版本信息
六、使用案例:
现有一个包含多序列的fasta格式文件multi.fasta
muscle -in multi.fasta -out ex1.mfa
muscle -in multi.fasta -out ex1.clw -clw
七、注意事项:
1、Muscle是多序列比对软件,它与Blast和Mummer是完全不同的,这些工具适合全基因组比对;
2、序列的方向要一致;