群体历史及驯化起源的研究方法
●群体遗传学诞生于 20 世纪初期,是研究物种在群体水平上受各种进化动力,如突变、遗传重组、遗传漂变、自然选择、人工选择及群体历史动态(包括有效群体大小变化及群体间基因流事件)造成的等位基因频率随着时间变化规律的学科(Hartl et al. 1997)。为了研究某物种极其复杂的演化过程,理论研究者借助于数学和统计学方法提出了多种基于基因组的遗传变异信息来重塑群体历史,如基于连锁不平衡(Linkage Disequilibrium, LD)及单倍型的方法、基于全基因组变异信息的方法、群体参数检验法、基于位点频谱的方法。
一、群体历史研究方法
1、基于全基因组序列信息重塑种群历史
●随着测序技术的革新,研究者可以很容易获得所研究物种的全基因组序列信息,甚至是群体水平的遗传变异。2011 年,Li 和 Durbin 开发了基于马尔可夫模型的 PSMC(Pairwise Sequentially Markovian Coalescent)软件,其利用二倍体基因上杂合位点的密度变化信息,并通过重现最近共同祖先(The Most Recent Common Ancestor, TMRCA)来推算物种在过去几百万年内的有效群体大小(Li and Durbin 2011)。随后,Schiffels 和Durbin 对 PSMC 进行了算法上的升级,实现了用多个个体的基因组信息来估算有效群体大小变化(Multiple Sequential Markovian Coalescent Method, MSMC)。MSMC通过回溯基因组单倍型的最近的共同祖先来估算有效群体大小变化。相比于 PSMC,MSMC 可以考虑一个群体的多个个体所有单倍型组合来进行溯祖,能够得到更为准确且相对近期的估算。
●PSMC 与 MSMC 在计算时不需要相应的先验模型,即只要有基因组信息,就可以追溯过去几百万年有效群体变化的结果。但 MSMC 在计算时需要知道个体的单倍型组成,因此在用 MSMC 计算有效群体大小之前,所用到的个体需要进行单倍型定相(phase)。由于动植物群体单倍型数据库相对缺乏,在进行单倍型定相时会引入不可控的误差,加之在单个群体所用个体数过多时会增加 MSMC 的计算负担(对于哺乳动物大小的基因组(3 Gb),8 个单倍型即 4 个个体,要想得到有效群体大小变化的结果,大概需要 300 GB 的内存,运行时间约需 15 天)。因此,2016 年 Terhorst 综合考虑了 PSMC 由于单个样本低分辨率和 MSMC 的 phase 错误(switch errors)及计算负担问题,开发了 SMC++软件。该软件能够在不 phase 的情况下,快速处理上百个基因组,并且能够同时考虑位点之间的连锁信息来推断有效群体大小变化及群体之间的分歧时间(Terhorst et al. 2017)。值得注意是,SMC++在估算两个群体的分歧时间时要求两个群体分开后不存在基因流动。为了提高估算的准确性,PSMC、MSMC 和 SMC++都推荐利用自举法(bootstrap)进行多次重复计算。
2、基于群体遗传参数种群历史重建
●通过初始化物种群体祖先信息,设定群体经历的进化动力参数(包括迁移率,群体扩张及群体收缩等),经过模拟就可以得到当前群体的遗传变异模式。在已知现有群体的观测数据的基础上,研究者可以通过比较计算机模拟数据和观测数据的差异来推断群体所经历的复杂演化过程。基于此,渐近贝叶斯(Approximate Bayesian Computation, ABC)方法通过统计观测数据相关遗传参数(如杂合度、群体间遗传距离等)总结为先验分布然后抽样并产生模拟数据,基于模拟数据可以获得所研究参数的后验分布并计算模型后验概率。
3、基于位点频谱估算群体历史动态
●另一个推算群体历史的方法是基于位点频谱(site frequency spectrum, SFS)信息。SFS 记录了群体中祖先等位基因频数的分布,也称作不折叠的频谱(unfold SFS);如果不能准确确定所研究群体的祖先等位基因型,可以用折叠的频谱(folded SFS)。频谱的计算方法如图 1-1。群体全基因组变异信息可以为推算群体历史变化提供丰富的信息(图1-2)。例如,当一个群体在过去某个时间点发生过群体扩张事件,反映在 SFS 上是过多的低频点与极少的中高频点;当一个群体发生过群体收缩事件,反映在 SFS 上是过多的高频点与少量的低频点;当一个群体保持群体大小稳定时,等位基因频数的分布与频率成反比。 image.png image.png
●相比 PSMC、MSMC,SFS 方法可以获得更为近期的群体历史动态变化,而且可以利用更大的群体信息得到更为精确的结果,同时不会增加计算负担。SFS 方法需要在计算时提供先验模型,然后从预先已知的先验分布中重复抽样来估计未知群体历史参数的后验分布(Gutenkunst et al. 2009, Excoffier et al. 2013)。基于 SFS 的方法的另一个优点是可以重塑非常复杂的多群体历史动态,而且可以推断群体之间的迁移事件。基于 SFS 重构群体历史的常用软件有∂a∂i(Gutenkunst et al. 2009)与 Fastsimcoal2(Excoffier et al. 2013),其中∂a∂i 使用扩散近似法(diffusion approximation)来推断最多 3 个群体的种群大小变化、种群分化及迁移率等历史事件;Fastsimcoal2 使用复合似然值(composite likelihood)来推断群体演化历程。两者对于少于 4 个群体的历史推测有着相似的运算效率,但当群体数超过 3 个时,只能利用 Fastsimcoal2 进行计算。计算过程中,∂a∂i 与 Fastsimcoal2都需要从高质量且独立的位点获得群体之间的频谱信息:即在计算 SFS 之前,必须要去掉变异位点之间的连锁不平衡,且尽可能利用高覆盖度高质量的全基因组,测序数据去生成 SFS。
●SFS 的方法需要用户提供可靠的先验模型才能得到具有生物学意义的结果。但在很
多情况下,研究者并没有这样一个可靠的先验模型,所以大多数用户都会结合群体遗传结构分析的结果选择多个可能的模型分别进行计算,而且每个模型需要进行多次的bootstrap 并通过比较似然值来提高结果的准确性(似然值越大,所得到的参数越贴近实际数据)。不同模型之间,可以通过赤池信息量准则(Akaike Information Criterion, AIC)和贝叶斯信息准则(Bayesian Information Criterion, BIC)综合考虑自由参数与似然值进而选择最佳的模型。
●综上所述,针对群体历史推断,已经开发出来多种计算策略。不同的策略有着各自的优势,比如基于 LD 或者 IBD,我们可以得到相对准确的近期历史事件;PSMC、MSMC及 SMC++可以在没有先验模型的情况下可以得到群体的有效群体大小变化及群体之间的分歧时间。但上述方法对于群体之间的基因流事件敏感性较低,为了进一步量化基因流事件及更复杂的历史事件(如是否存在与已经灭绝群体(ghost)的基因交流等),基于模型的量化方式也逐渐成为群体历史研究的主要方式.
二、驯化起源研究方法
●大多数家养动物都于 10,000 前左右被驯化,关于它们的驯化过程基本上是无迹可寻。只有通过整合分子生物学、考古学才能尽可能全面的去重现家养动物的驯化过程。
●分子生物学研究主要通过遗传多态性标记来分析家养动物与其野生祖先之间的系统发生关系、驯化发生的次数、驯化发生的地点及驯化发生的时间。目前,用于动物驯化研究的遗传多态性标记主要包括线粒体 DNA、Y 染色体 DNA 及核基因组 DNA 的遗传变异(主要是 SNP)。
●线粒体的遗传变异具有如下优势:(1)动物细胞都具有大量拷贝的线粒体,因而有利于 DNA 的提取工作;(2)线粒体的突变速率要高于核基因组 DNA,可以揭示家养动物相对较短时间内的多次变异;(3)线粒体具有母系遗传的特征,无重组,可以进行准确的单倍型分类。
●作为线粒体的遗传变异的补充,Y 染色体的遗传遵循父系遗传,可以用来追溯现代家养动物的父系祖先。同时,大部分 Y 染色体处于半合子状态,除去端粒部分的拟常染色体区外,Y 染色体单拷贝区域不发生重组,进而使得 Y 染色体上由单核苷酸变异界定的单倍型类群可以保持相对完整,易于确定。虽然以上单系的遗传变异可以同时从母系及父系的角度来追溯群体的驯化与迁徙历史,为我们提供了谱系信息,但是,由于他们只能提供有限的多态性信息,对于相对复杂的驯化事件(如基因流事件)表现的不敏感。同时也很难通过单系的遗传变异去揭示家养动物驯化过程中形态学改变的遗传机制。
●核基因组 DNA填补了单系遗传变异的不足,其变异多态性丰富,能够更准确的揭示驯化过程中所发生的事件,如有效群体大小变化、群体分歧时间、基因流及随着驯化发生的遗传物质的改变等,因此成为目前家养动物驯化历史研究最重要的分子遗传标记。
三、动物驯化起源研究
●目前,科学家已经在很多家养动物上展开了驯化相关的研究。驯化相关研究的三个核心问题是:驯化物种的野生祖先是谁、驯化发生的时间、地点和次数及扩散路线。
●狗是人类最早驯化的动物(Larson et al. 2012),其驯化在人类历史上具有十分重要的意义。家犬拥有丰富的行为和表型,是研究人工选择下生物适应性的最佳模式生物。研究狗的驯化起源、品种形成及行为和形态变异的遗传机制,一直是遗传学领域的关键问题。以骨骼形态及考古学为研究背景,狗的驯化历史可以追溯到 12,000 年前。一般认为,狗是由灰狼驯化而来(Parker et al. 2004),但是其驯化地及驯化次数的研究结果一直存在争议。基于线粒体遗传变异及芯片技术,有些研究者提出现代狗是在东亚被驯化的(Pang et al. 2009, Savolainen et al. 2002),但也有人认为是在欧洲(Thalmann et al. 2013)或是中东(Holdt et al. 2010)被驯化的。随着新一代测序技术的发展,研究者利用全基因组范围内的遗传变异对狗的起源驯化进行了研究。2016 年,Wang et al.对分布在世界范围的多个野生灰狼、土狗及地方狗进行大规模重测序研究发现:现代狗于 33,000 年前起源起源于东亚南部,并在 15,000 年前由东亚南部逐渐向中东、非洲及欧洲扩散。同年,Frantz et al.通过对爱尔兰出土的 4,800 年前的狗骨头进行了 28×全基因组测序,同时还对 14,000-3,000 年前的 59 只古代狗的线粒体 DNA 进行测序,研究发现现代东亚狗与欧洲狗之间的分歧时间(~14,000-6,400 年前),该时间稍晚于目前欧洲考古最早(>15,000 年前)出土的狗和东亚考古最早(>12,500 年前)出土的狗。同时,比较现代和古代狗的线粒体单倍型模式,发现单倍型 C(63%)和 D(20%)在古代狗中占据了主导,而现代狗主要以单倍型 A(64%)和 B(22%)为主,认为线粒体的倒转是由于早期(15,000 年前)东亚狗被人带到欧洲并取代了当地狗。最后,结合考古记录表明早期的狗在~12,000 年前只出现在东方和西方,但出现在中亚不会早于 8,000 年前。这些研究发现表明,家犬是由欧亚大陆两个独立狼群驯化而来的(Frantz et al. 2016)。2017 年,研究者对德国出土的两块家犬骨头(分别约 7,000 年前和 4,700 年前)进行了全基因组测序(~9×)并结合 Frantz 获得的 4,800 年前的家犬全基因组数据及现代样本对狗的驯化历史进行了重新解读(Botigue et al. 2017)。结果显示,所有古代犬和主要的现代欧洲犬有着相同的基因根源,而且,从新石器时代早期一直到现在,驯化犬的基因组表现出连续性,而并不像 Frantz 认为的取代过程。同时,研究还发现狗与狼的分歧时间大约在 4
万年前,东西方的分歧的时间大约是 2 万年前。总的来说,关于狗确切的地理起源还需更深入的研究。