【现学现卖】系统发育分析之AMPHORA(1)
今天介绍文章《A simple, fast, and accurate method of phylogenomic inference》中细菌系统发育分析的方法。今天看这个08年的文章,是因为之前样品送公司做的数据是用这个文章里的pipeline分析的,现在基因组水平的系统发育分析方法很多了。可以多看看,多试试。
基因组数据的增多,使利用protein markers做系统发育分析的成为可能。作者设计了一个系统发育分析的自动管线(automated pipeline for phylogenomic analysis, AMPHORA),以克服无法利用很多蛋白标记进行系统发育分析的瓶颈,并获得高通量,准确的结果。
研究背景综述
20世纪70年代,核糖体小亚基(small subunit rRNA, SSU rRNA)的使用对微生物分类、系统发育分析和生态学产生了革命性的影响。SSU rRNA基因是最经常被测序的基因,是微生物多样性研究的黄金标准。
理由有二:首先,它广泛存在于微生物中;其次,这个基因序列的两端高度保守。这使得人们可以通过通用引物PCR,获得近乎完整的SSU rRNA基因序列。近年来,单独通过SSU rRNA基因对微生物进行鉴定和分类仍是主流(这篇文章是2008的,现在不同方法还挺多的,但今天很多文章还会用16S作为一个鉴定上的参考)。这个平均长度为1.5 kb的序列是我们对研究的微生物鉴定分类时知道的唯一信息。
(16S rRNA的二级结构)
尽管SSU rRNA在系统发育研究中十分有用,但是也存在很多局限。比如,SSU rRNA序列相近但是进化关系较远的两个菌株会在建树时分到一起。任何利用单个基因推断菌株系统发育的都有一定误差,需要其他标记辅助。
很多研究者把目光对准编码蛋白质的基因,比如EF-Tu, rpoB, recA和HSP70。因为蛋白质序列在氨基酸水平保守,与之前的SSU rRNA的核苷酸序列的分析比,偏差更少。另外,密码子第三位置上的变异也使得蛋白标记可以分析更相近的菌株之间的系统发育关系。由于克隆蛋白质编码基因更困难些,所以虽然有了蛋白标记分析系统发育的方法,SSU rRNA仍是黄金准则。
然而随着全基因组测序的发展,世道变了。全基因组序列包含所有生物体中编码蛋白质的基因。现在,人们不仅可以根据喜欢的蛋白质编码基因构建系统发育树,还可以级联多个基因的序列,去构建一个基因组水平的系统发育树。这类基于多基因的系统发育分析比基于单基因的更加可靠。
尽管如此,这类分析也会存在由组成偏差、不真实的进化模型和不充足的分类样本造成的系统误差,并且操作起来有些技术困难。我们先说说这个分析方法的步骤,首先同源基因检索,第二是进行多序列比对,第三是构建系统发育树。其中最重要的是多序列比对,理想情况是同一列的位置上同源序列(nt或aa序列)整整齐齐的比对,所以对这个比对位置的整理和评估很重要。
同源比对位置不确定的会被掩膜(masking)排除在后续分析以外。mask增加了信噪比,增加分类能力,但是对大量序列数据操作时也不太容易实现。比如用GBLOCKS自动筛选保守模块进行多序列比对时,可能自动删除了太多的包含大量信息的位点,使做出的系统发育树不太可靠。
为了克服这些问题,作者构建了一个pipeline,可以自动以多蛋白标记级联构建系统发育树,它具有快速,准确,高通量的特点。它还可以用于分析宏基因组数据。
宏基因组或者环境基因组研究中,环境中的天然微生物群落样本被收集,测序,以了解样本中都有那些类群等等。所以收集的样本里的蛋白标记的系统发育分析可以有效揭示样本中微生物类型。
AMPHORA pipeline分析流程
嗯,先放个图,明天再说。
参考文献
Wu, Martin, and Jonathan A. Eisen. "A simple, fast, and accurate method of phylogenomic inference." Genome biology 9.10 (2008): R151.
AMPHORA下载(我刚刚试了一下无法访问,一会再看看。。。)
http://bobcat.genomecenter.ucdavis.edu/AMPHORA