如何正确选择多序列比对(coding sequences)软件
前几天,实验室的师弟师妹通过本地blast获取一些没有基因组注释物种的蛋白编码序列。原本以为可以快速地进行下一步的选择压力分析,没想到却在多序列比对这一环节出现了棘手的问题。以前,我都是经过PRANK软件进行多序列比对,然后再使用Gblocks软件对数据进行过滤的。现在,由于师弟师妹在拼接CDS序列时,有些碱基并不是保留3的倍数,造成很多编码序列出现移码突变,甚至变成了伪假基因(几百个基因)。虽然,现在可以进行多序列比对的软件有很多,比如Muscle、MAFFT、PRANK等,但它们均不能解决移码突变的问题。于是,我开始去google搜寻解决方案。功夫不负有心人,我最终找到了完美的解决办法,收获颇丰,所以把这个过程记录下来。

多序列比对(multiple sequences alignment,MSA)是开展进化生物学研究的前提,基于此,我们可以进行选择压力分析以及推断不同物种类群的系统发育历史。
多序列比对表示不同物种序列中的氨基酸/核苷酸的位点同源性。将比对用于进化分析时,处于相同位置的氨基酸/核苷酸位点则被认为在进化上是同源的,并且具有共同的祖先。通过研究序列比对中同源序列是如何随时间变化的,可以推断序列的结构和功能是如何进化的。比如,对多个物种同源序列的比较可以发现发生替换的位点,进而判断出哪个序列在哪个位置发生变化。另外,两个序列之间的长度差异可以通过删除一个序列中的现有碱基位点或插入另一个序列中的新碱基位点来解释。两个序列之间发生替换差异的进化谱系,可以用外群序列来解决,也可以通过推断两个序列的祖先的特征状态来解决。因此,以上所有情况的结论准确性很可能取决于多序列比对(MSA)的准确性。
最近的研究表明,MSA算法在分析基因组序列时会产生不同的结果,包括系统发生树推断和适应性进化的检测。换句话说,错误的MSA将会产生一个非真实的进化历史信号,从而导致错误的推断。为了减少MSA错误的影响,许多研究人员在优化MSA算法和MSA质量过滤软件等方面做出了大量的努力。然而,MSA不仅包含比对错误,而且还包含序列自身错误(如测序错误、组装错误或错误的基因注释等)。所以,正确选择MSA分析流程可以显著减少这些错误的产生,从而获得高质量的保守同源序列用于下游的分子进化分析。
接下来,我主要是介绍一些平时比较常用的主流分析软件以及它们的优缺点。可能还有很多优秀的软件,由于个人精力有限,暂时只讲一下我自己比较熟悉的工具,请大家见谅。
01. Multiple Sequence Alignment

2013年,Blackburne 和 Whelan 在Molecular Biology and Evolution期刊发表他们的研究成果,该成果证明了MSA方法在下游分析中的关键作用,突出了在分析中选择的不同的MSA软件对其结果有明显的影响。
是最早开始使用的多序列比对工具,由 Feng 和 Doolittle 于1987年提出,该程序有许多版本,可以基于多种平台,目前引用次数已近100000次(Thompson et al. 1994; Larkin et al. 2007)。它采用一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权,然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。因此,它是一种试探算法,所以渐进比对不能保证能够得到最优的比对。
结果显示BAli-Phy这款软件能够很好地处理多序列比对,产生较少的比对错误,这也是我第一次知道BAli-Phy的存在,对它的使用并不是很清楚。同时,PRANK软件的准确度也可以与之媲美,它的主要原理就是基于系统发生关系的推断,能够准确识别插入与缺失事件,从而减少比对错误,但运算速度较慢,不太适合大数据分析,目前它的引用数达到了1662次(Löytynoja A. 2005,2008,2010,2014)。ClustalW是最早使用的多序列比对工具,使用方便,但错误率极高,目前引用次数已近100000次,可谓是家喻户晓。Muscle与MAFFT这两款软件是继Clustal之后的后起之秀,它们在处理大数据方面有着巨大优势,运算速度极快,但也会产生较多的错误比对。



此外,还有几种基于隐马尔科夫模型(Profile HMM Methods)的多序列比对工具,这些工具目前我还不清楚它们的具体优缺点
- SEPP(SATé-enabled Phylogenetic Placement):解决将short reads放入参考序列和树的系统发育问题;
- TIPP(Taxonomic Identification and Phylogenetic Profiling):解决元组数据的分类识别和丰度分析问题
- UPP(Ultra-large alignments using Phylogeny-aware Profiles):解决非常大的数据集对齐的问题,这些数据集可能包含一些零碎的数据,可以将数据集多达1,000,000条序列对齐;
- HIPPI(Highly Accurate Protein Family Classification with Ensembles of HMMs):解决蛋白质家族分类的问题;
MACSE v2(Multiple Alignment of Coding SEquences):MACS根据其氨基酸(AA)翻译对蛋白质编码核苷酸(NT)序列进行比对,同时允许NT序列包含多个移码和/或终止密码子。因此,MACSE是第一个自动调整含有非功能序列(伪基因)的蛋白质编码基因数据集的解决方案,而不破坏潜在的密码子结构。

02. Trimming

当我们获得精准的多序列比对后,接下来的任务就是过滤掉一些低质量以及高变异度的序列区域,仅保留进化保守的区域用于后续分析。那么,产生这些低质量区域的原因,主要有两个方面的原因:
- 生物学因素:如果比较来自远缘物种的蛋白序列,很有可能只有蛋白质的功能部分在序列上具有较高的保守性。其他部分,如环,更有可能改变它们的氨基酸序列,无论是在氨基酸含量方面,还是在indels存在的情况下。即使当多个序列对齐的预测是正确的,它也可能对系统发育树的推断产生负面影响。
- 错误:基因组组装错误、基因预测错误以及多序列比对错误
目前主流的多序列比对过滤软件可分为两个方面:一是block-filtering software:trAlim、Gblocks、BMGE;二是segment filtering software:HmmCleaner、PREQUAL。最近研究结果表明,HmmCleaner与PREQUAL这两个软件基于隐马尔科夫模型能够很好地解决以上提及的问题,过滤后的数据准确度可以达到90%以上(Di Franco A. 2019;Whelan S. 2018)。


03. Know Your Limits
- 数据类型: DNA vs. RNA, coding vs. non-coding nucleotides (wobble bp), AAs, proteins, etc.
- 数据特性:substitution (≠ mutation) rate strength (↑ vs. ↓), indel size and rate (% gap & gap length), pairwise sequence identity (PID), etc.
- 数据矩阵特性:# of tips, # of sequences, (alignment length ∝) data matrix weight, e.g., light (K, M) vs. heavy (G, T), etc.
- 计算资源:CPU time and RAM memory
04. Suggestions
提出一些个人的小建议:
- 小数据集 + 编码基因: MACSE + HmmCleaner + PRANK-codon
- 大数据集 + 编码基因: MACSE + HmmCleaner + MAFFT
所以,要始终结合自己的数据以及自己想要解决的问题去选择正确的软件。生物信息学与计算机类似,更新速度很快,几年前还在使用的经典软件,现在可能已经过时了,因而保持与时俱进对生物信息人员是十分重要的。
问题解决了,收获满满,开心!!!

参考文献:
- Blackburne B P, Whelan S. Class of multiple sequence alignment algorithm affects genomic analysis[J]. Molecular biology and evolution, 2012, 30(3): 642-653.
- Löytynoja A. Phylogeny-aware alignment with PRANK[M]//Multiple sequence alignment methods. Humana Press, Totowa, NJ, 2014: 155-170.
- Löytynoja A, Goldman N. Phylogeny-aware gap placement prevents errors in sequence alignment and evolutionary analysis[J]. Science, 2008, 320(5883): 1632-1635.
- Fletcher W, Yang Z. The effect of insertions, deletions, and alignment errors on the branch-site test of positive selection[J]. Molecular biology and evolution, 2010, 27(10): 2257-2267.
- Ranwez V, Douzery E J P, Cambon C, et al. MACSE v2: toolkit for the alignment of coding sequences accounting for frameshifts and stop codons[J]. Molecular biology and evolution, 2018, 35(10): 2582-2584.
- Whelan S, Irisarri I, Burki F. PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences[J]. Bioinformatics, 2018, 34(22): 3929-3930.
- Di Franco A, Poujol R, Baurain D, et al. Evaluating the usefulness of alignment filtering methods to reduce the impact of errors on evolutionary inferences[J]. BMC evolutionary biology, 2019, 19(1): 21.