Mafft--用于多序列比对

2019-10-31 本文已影响0人 felixhell

最近由于要做phylogenetic tree.所以涉及到了N多软件，包括很多步骤都要重新熟悉。理论上，你有了reads,其实直接用mega就可以满足你的需求，但是有时候上帝要你用一些特定算法。比如bayes,那就没有办法了。
其实建树，就是通过各个物种的基因（或者蛋白），进行比较，看它们各自的同源性来区分相似程度。而当你手上的reads成百上千条的话，就需要用到多序列比对软件啦。由于这里只是牵扯到reads之间的关系，是不需要用到references的。

不同多序列比对软件的比较

最经典和广为熟知的多的序列比对软件是 clustalw 。但是现有的多序列比对软件较多，有文献报道：比对速度（Muscle>MAFFT>ClustalW>T-Coffee），比对准确性（MAFFT>Muscle>T-Coffee>ClustalW）。因此，推荐使用 MAFFT 软件进行多序列比对。

Mafft的使用

input format is fasta.

fasta.png

mafft -h #来看看可选择的参数

用法非常简单，主要是看中间的High accuracy这里。

L-INS-I(最准确的方法。适合小于200条，且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --localpair input > output

G-INS-I(适合序列长度相似的比对，小于200条，且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --globalpair input > output

E-INS-I(适合序列仲包含较大的非匹配区域，小于200条，且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --genafpair input > output

运行后的结果如下图。按照最长序列，把相应位置的aa标出来，有gap的地方，则用---补齐。

output的仍然是fa文件。到此，就完成了MAFFT的多序列比对了.

如果是直接导入MEGA,fa格式也是没有问题的，因为MEGA里是没有MAFFT这种比对方式的。如果是要用phy格式的话，就需要先转格式了，转格式的话，用seaView和mesquite都没有问题的，不过我是建议用seaView。