Mafft--用于多序列比对
2019-10-31 本文已影响0人
felixhell
最近由于要做phylogenetic tree.所以涉及到了N多软件,包括很多步骤都要重新熟悉。理论上,你有了reads,其实直接用mega就可以满足你的需求,但是有时候上帝要你用一些特定算法。比如bayes,那就没有办法了。
其实建树,就是通过各个物种的基因(或者蛋白),进行比较,看它们各自的同源性来区分相似程度。而当你手上的reads成百上千条的话,就需要用到多序列比对软件啦。由于这里只是牵扯到reads之间的关系,是不需要用到references的。
不同多序列比对软件的比较
最经典和广为熟知的多的序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推荐使用 MAFFT 软件进行多序列比对。
Mafft的使用
input format is fasta.
![](https://img.haomeiwen.com/i16606225/d0513b6eec3b4483.png)
mafft -h #来看看可选择的参数
![](https://img.haomeiwen.com/i16606225/f1c63e936f950598.png)
用法非常简单,主要是看中间的High accuracy这里。
L-INS-I(最准确的方法。适合小于200条,且长度小于2000aa/nt的序列。)
mafft --maxiterate 1000 --localpair input > output
G-INS-I(适合序列长度相似的比对,小于200条,且长度小于2000aa/nt的序列。)
mafft --maxiterate 1000 --globalpair input > output
E-INS-I(适合序列仲包含较大的非匹配区域,小于200条,且长度小于2000aa/nt的序列。)
mafft --maxiterate 1000 --genafpair input > output
运行后的结果如下图。按照最长序列,把相应位置的aa标出来,有gap的地方,则用---补齐。
![](https://img.haomeiwen.com/i16606225/5c36185ae8035f7f.png)
output的仍然是fa文件。到此,就完成了MAFFT的多序列比对了.
如果是直接导入MEGA,fa格式也是没有问题的,因为MEGA里是没有MAFFT这种比对方式的。如果是要用phy格式的话,就需要先转格式了,转格式的话,用seaView和mesquite都没有问题的,不过我是建议用seaView。