组学顶刊文献阅读

2023-02-19 | 与未知古老种群的杂交促进犬科动物的高原

2023-02-18  本文已影响0人  千万别加香菜

●英文题目:《Ancient Hybridization with an Unknown Population Facilitated High-Altitude Adaptation of Canids》

●期刊:MOL BIOL EVOL

●影响因子:2022_IF=8.8;中科大类: 生物学1区; 中科小类: 生化与分子生物学,进化生物学,遗传学1区; JCR分区: Q1

●发文单位:中国科学院昆明动物所、加利福尼亚大学圣戈鲁兹分校霍华德●休斯医学研究所,云南大学、中国农业大学等等多个机构

●文章作者:中国科学院昆明动物所、加利福尼亚大学圣戈鲁兹分校霍华德●休斯医学研究所王明山、中国科学院昆明动物所王胜、云南大学李岩、等为共同第一作者;中国科学院昆明动物所张亚平院士、吴冬冬研究员等,为文章共同通讯作者

●摘要:遗传渐渗不仅为适应性进化提供了物质基础,也给我们对进化史的理解带来了困惑。 犬科动物尤其如此,它是一个复杂的物种,基因组测序和分析揭示了其混合和渐渗的复杂历史。 在这里,我们对来自高海拔地区的西藏和喜马拉雅狼和狗的19个新的全基因组进行了测序,并将它们组合成一个由166个全犬基因组组成的更大的数据集。 利用这些数据,我们探索了这些和其他犬科动物的进化史和适应性。 我们发现,西藏狼和喜马拉雅狼的亲缘关系密切,它们~39%的核基因组来自一个尚未被识别的类狼血统,与现存的泛北极区狼和狗有着很大的分歧。 EPAS1 单倍型在西藏犬种和狼中的频率很高,对生活在高海拔地区的动物具有适应性优势,可能来自这一古老的谱系。 我们的研究强调了犬科动物进化的复杂性,并展示了混合和渐渗如何塑造物种的进化轨迹。

●前言:随着高通量测序的发展和比较群体基因组学的进步,不同谱系之间的基因流在物种进化中扮演着越来越重要的角色。 在一些情况下,在过去混合后的基因流动事件允许已经灭绝的谱系的遗传片段持续存在。 例如,在解剖学上的现代人离开非洲后,与古人类混合导致了来自古人类谱系的等位基因的渗入,今天在一些人类群体中观察到这种渗入频率很高,这表明这些等位基因提供了适应性优势。 这方面的一个典型例子是丹尼索瓦人衍生的 EPAS1 等位基因在当代西藏人中的高频率,这导致西藏人的低氧反应减弱,并允许适应青藏高原低氧环境的生活。

混合和基因组渐渗在犬科中尤其普遍,包括狗、狼、郊狼、豺狼、野狗和许多其他现存以及灭绝的犬科类动物。 由此产生的犬类的网状进化史使解开它们的进化关系和确定狗驯化的时间和地点变得复杂。 青藏高原(QTP)的高海拔狼(HAWs)是最神秘的犬科动物谱系之一,其起源和进化关系仍悬而未决。 这些HAWs通常分为两组,西藏灰狼(TW)和喜马拉雅狼(HW)。 HWs分布在尼泊尔的Transhimalayan地区、印度北部克什米尔东部拉达克地区、喜马偕尔邦和邻近地区,而TWs分布在甘肃、青海和西藏等省。 这两只狼的数量都非常少,非常脆弱,目前在印度和尼泊尔,狼受到野生动物立法的保护。

尽管通过形态学和遗传学研究可以更好地理解它们的进化史,但HAWs的起源以及它们与其他灰狼的关系仍然不清楚。 早期的形态学研究发现HAWs有别于欧亚狼,并认为它们是一个独特的亚种。 线粒体DNA分析发现,HW与TW聚在一支簇,与其他灰狼有显著不同,并建议这些HAWs可以作为一个单独的物种。 然而,对整个核基因组的分析发现,TW与来自中国北方的灰狼聚集在一个与欧洲狼是姐妹的分支。 这项研究表明TW起源于亚洲狼的一个谱系,并在大约2.5万年前(KA)与中国北方狼分离后重新定居QTP。 最近,对核基因组的另一项分析表明,TW的系统发育位置取决于用于估计一致系统发育的方法。 具体地说,使用NJ法估计的一棵树将TW作为中国北方狼的姐妹群,与之前的分析一样,而使用最大似然估计的系统发育将TW作为狗和所有欧洲和亚洲狼的基础。 由于HW的核基因组尚未测序,基于核基因组的TW和HW之间的亲缘关系尚不清楚。

TW和HWS都在基因上适应了高海拔的恶劣生活条件。 一个基因,EPAS1,是一个诱导对缺氧的物理反应的转录因子,估计是在强正选择下在藏狗(TDs)和TW中进化出来的。 已知TW和HW都携带一种独特的 EPAS1 单倍型,这种单倍型被认为是在正选择下进化而来的,但适应性 EPAS1 等位基因的起源仍然未知。 以前的研究认为,EPAS1 是在狗被引入QTP后从TW流向TD的,可能是在旧石器时代人类在该地区定居后。 这一假设是基于TW和亚洲狼之间的姐妹关系,以及TW在引入狗之前就已经栖息在QTP的假设。 然而,这些进化关系仍未解决,替代假设也是可能的。 例如,高海拔的 EPAS1 等位基因可能在狗体内进化,后来又流向狼体内。 从狗到狼的渗入是众所周知的; 例如,Klocus(一种犬类β-防御素基因)中的一个三碱基对(BP)突变导致黑色毛色并赋予更高的适应性,通过杂交从狗传播到美国灰狼。 由于QTP的两种HAWs、其他狼和狗之间的进化关系仍然不清楚,适应性 EPAS1 等位基因的起源也不清楚。

在这里,我们对HW、TW和狗的完整核基因组进行了测序,并与已发表的中国狼、狗和其他犬科动物的基因组进行了分析。通过明确考虑HAWs和其他犬科动物的混合关系,我们发现TW和 HW与欧亚灰狼、家犬和一个现已灭绝或未知的类狼犬科动物的混合关系密切。 然后我们特别探索 EPAS1 等位基因的进化起源,我们发现这些生活在QTP上的谱系共享 EPAS1 等位基因,可能来自以前未描述的深度分歧的犬科谱系。

●结果:

1、基因组测序和进化关系

我们对19个狼和狗的全基因组进行了测序,平均覆盖度为8.5倍。 这包括两只TW,其中一只来自西藏林芝,另一只来自中国青海,一只HW来自印度长塘拉达克,以及16只来自QTP的狗(>2000米)。 利用这些和以前发表的狼和狗的基因组数据,我们编制了一个166个完整基因组的数据集,包括9个TW、1个HW、34个TD、11个低地狼(LWs;1个克罗地亚狼、1个以色列狼、3个俄罗斯狼、5个蒙古狼和1个中国狼)、109个低地狗(LDs)、1个金豺和1个Dhole。 我们将这些数据比对到狗的参考基因组(CANFAM3.1)上,并鉴定了超过2640万个SNPs。 图S1 为了估计我们的比对中犬类之间的进化关系,我们首先使用了PCA和ADMIXTURE分析进行遗传聚类,这是一种最大似然估计个体祖先的工具。 与之前的结果一致,我们的PCA表明,狗、TWs和LWs属于不同的集群。 HW接近TW集群(图S1)。 ADMIXTURE反映了与PCA类似的聚类,并表明TWS、LWS和LDS可以被划分为不同的组(图S2)。 值得注意的是,PCA和ADMIXTURE可能会被几个潜在因素所混淆,包括每组样本的数量、基因组测序深度和群体演化历史(即瓶颈和混合)。 由于我们的研究中包括的狼样本非常有限,PCA解释的方差很低(图S1),我们认为,若没有进一步的证据,任何确定的结论都不能得出。 图S2 然后,我们使用Treemix通过假设零到五个迁移事件来构造基于整个常染色体变异的最大似然树图。 尽管狗和狼种群之间普遍存在混合,但所有推断的混合图都显示HWD和TW在树中聚集在一起。 接下来,我们将来自HW、TW和LW(均为LW,或仅限于中国或欧洲狼)和Dhole的基因组分成长度为100、250和500 kb的片段,并分别构建基因树。 我们使用ASTRAL和Discovista来总结这些基因树。 所有分析的结果都支持TW和HW密切相关(图S4和S5)。 此外,在F4(Golden Jackal,HW;POP2,LW/Dog)和F4(Golden Jackal,POP2;HW,LW/Dog)(Z<-53)中给出了显著的负值,强烈表明HW在基因上更接近TW而不是LWS。 图S4 图S5 我们接着利用上述数据集以及发表了的来自狗、灰狼、郊狼、狗、金豺和非洲野狗的线粒体基因组估计了线粒体系统发育。 HWD和6个TW线粒体谱系形成了一个明显的分支,是狗和LW的基础(图1C和图S6)。 我们用包括HW、TW和蒙古狼的数据集与以前发表的HW线粒体片段,包括Cytb、D-loop和16S-RNA基因进行分析,发现这些HW序列与我们的HW和TW聚类在一起。 我们估计TW/HW支系与当今其他狗和灰狼谱系的分化时间为779 ka(95%HPD,637-930 ka;图1C)。 线粒体和细胞核的结果表明HW和TW密切相关 图1 图S6 以前的一项研究从串联核序列构建的系统发育表明,TW和来自中国北方的和狼(包括蒙古狼)构成了一个与欧洲和中东狼是姐妹群的分支。 这一发现与我们和发表的线粒体系统发育不一致(图1c和图S6)。 然而,我们的整个核基因组表明TW和HW形成了狗和LW的基础谱系。 为了进一步探讨现代HAWs(包括TW和HW)与狗和其他狼的进化关系,我们基于三个数据集(数据集1:HAW,LW [所有LWs] 、LD,TD和dhole;数据集2:数据集1中的LW仅包括EUW [欧洲狼] ;数据集3:数据集1中的LW仅包括CHW [中国狼] ) 构建了系统进化树。 如上所述,我们沿着每条染色体将这些基因组分成100-,250-,和500-kb片段。 不同片段大小的结果基本一致,并揭示了三种主要拓扑(T1: HAW 是dog和LW的基础谱系;T2: LW是 HAW 和dog的基础谱系;T3: HAW是LW的姊妹群)占推断祖先的90%以上。 这些拓扑在不同的LWs组中的频率不同。 具体来看,对于数据集1,最常见的拓扑是T1(38.3-43.1%),其次是T3(31.5-32.3%)和T2(23.4-24.0%); 对于数据集2,最常见的是T1(40.6-50.8%),其次是T2(30.2-34.2%)和T3(12.9-19.7%); 而对于数据集3而言,最常见的是T3(39.6-46.4%),其次是T1(30.8-33.0%)和T2(19.2-22.2%)。 与线粒体基因组不同,核基因组的系统发育显示了一种复杂的模式,这些拓扑结构的频率彼此之间略有不同,我们无法确定HAWs和LWs之间的明确关系。 图2

接下来,我们使用F4-statistics对青藏高原狼与狗之间的混合进行了测试。 F4-以F4(outgroup,HAW;LW,狗),发现HAW与LW的等位基因共享比与狗的多(F4<0); 以F4(outgroup, HAW;TD和LD)的形式揭示了HAW和高原犬之间基因流动的证据(F4<0)。 在F4(outgroup,狗;LW,HAW)中,高原和低海拔的狗与LW比与HAW共享更多祖先(F4<0)。 如果HAW像以前报道的那样与北亚狼聚类,并与TD有基因流动,则后一发现是意想不到的。 这类似于丹尼索瓦人和尼安德特人基因组研究中观察到的模式,并提醒我们思考一种情况:HAW可能有混合祖先,衍生出一个更严重分歧的谱系。 对这一假说的进一步支持来自对FST的估计,该估计表明HAW与狗的遗传差异几乎是LW的两倍(图2a)。 然而,这些模式也有可能是LW和狗之间反复发生基因流动的结果。 为了进一步探索这一点,我们使用qpGraph构建混合图,并屏蔽狗和狼种群之间的差异和基因流。 HAW(没有F4异常值)可以被模拟为一个混合群体,最初是由一个分化谱系(39%)和LW(61%)之间的混合产生的,然后这个群体(混合)后来由一个与TD(图2B)有关的谱系产生了18%的祖先。 这与基于全基因组遗传片段的三大拓扑结构大体一致。然而,假设HAW和LW是姐妹分支并允许LW和Dog之间的基因流动的混合图产生了过量的F4异常值,表明拟合不良。 鉴于LDs和欧亚狼之间的差异和种群亚结构的复杂性,我们进行了一系列额外的分析,在这些分析中,我们识别了包括EUW、CHW、华南犬、非洲和欧洲犬在内的离散类群,并以多个组合对这些类群进行了qpGraph,以检验这些类群内异质性的影响。 尽管这些类群和HAW之间的基因流量略有变化,取决于LD和LW类群的组合所包含的种群,但基于模型的混合图,HAW携带分歧的遗传输入,没有F4异常值,表明相当好的模型拟合。


图S9

上面描述的分析支持了 HAW 有一定数量的祖先来自不同的犬科动物血统的假设。 为了进一步探索这一点,我们使用隐马尔可夫模型(HMM)方法寻找 HAW 中具有“发散”起源特征的基因组区域。 该方法通过将给定个体的基因组序列与未混合的参考群体进行比较,来寻找包含出人意料的高密度特异突变的基因组短区域。 我们选择 LD 和 LW 作为假定的未混合参考群体,并衡量沿着每条染色体在1-kb窗口内的突变密度。 由于犬和狼种群之间的差异、亚结构和混合性,LD和LW可能不是完美的非混合种群。 然而,以前对LD和LW 与 HAW 混合研究会导致对HAW发散量的低估。 假设作者(Skov et al.2018)建议的后验概率为0.8,我们在 HAW 基因组中发现了几个推定高度分歧的区域。 这些结果表明 HAW 含有狼血统的混合血统,比LD和LW分化更加深刻。为了进一步探索这些高度分歧的基因组区域的进化史,我们创建了一个仅限于这些基因组区域的比对,包括北美狼、郊狼、dhole 和非洲野狗,并构建了一个NJ树。 由此产生的系统发育关系表明,两只北美狼是狗和欧亚狼是基础谱系,HAW 是所有极地狼和狗是基础谱系(图2c),类似于线粒体系统发育(图1C)。 同样的结果得到了使用更严格的0.9后验概率截断恢复的发散片段中推断出来的NJ树的支持,(图S9b)。 总的来说,这些分析表明,在QTP上的现代狼的基因组包含一部分与LW共有的祖先,一部分与家犬共有的祖先,以及至少与另一个尚未描述的拥有更深的分化的血统共有的祖先。


图3

2、群体演化历史

为了进一步探索高原狼和 LWs 之间的差异,我们接下来使用两两顺马尔可夫聚类(PSMC)和多重顺马尔可夫聚类(MSMC)估计了这些谱系成员的进化轨迹。 以前的一项核基因组分析报告称,TW 和 North Chinese wolves 在狗的多样性之外形成了一个单系分支。 如果这种关系是正确的,我们会期望 TW 与这些 LW 有一个类似的进化轨迹。 然而,我们发现 TW 和 LW 的进化轨迹在100 ka左右发生了分歧,此时TW种群规模开始下降,而LW直到后来才下降(图3a)。

为了估计狗和狼之间的分歧时间,我们利用 MSMC 对相对交叉融合率(CCR)的估计,并使用50%的CCR作为分歧时间的经验法则。 我们发现狗谱系与 LW 谱系分歧发生在52.5ka(图3b)。 如果 TW 和 LW 是没有差异渗入或混合的单系分支,我们期望TW和狗的分歧与LW和狗相似。 然而,我们发现TW与LW和狗的分化分别发生在 68和81 ka(图3b)。


图S12

3、模拟分析

以前,PSMC 观察到的 TW 和欧亚狼之间的分化模式被认为是由于在最近 TW 种群规模发生下降。 为了测试我们的结果是否是TW最近种群数量下降的结果,我们接下来进行了一系列模拟,假设两个不同规模的种群分开在30 ka左右(以反映狗和狼之间通常假设的分歧时间),在此之后,群体会经历不同严重程度的瓶颈(图S12)。 然后,我们用 PSMC 和 MSMC 估计了这些模拟种群的进化轨迹和发散时间,并将结果与真实数据(图S13)进行了比较。 这些情况都没有产生真实数据中描述的较早的分歧时间(图3),这表明 TW 种群的下降并不能解释其分歧的进化轨迹。 图S13

对于 TW 和狗之间的分歧时间比 LW 和狗之间的分歧时间更早的估计,另一个潜在的解释是 TW 基因组包含一些来自更古老谱系的祖先成分。 为了验证这一假设,我们进行了额外的模拟,两个群体的分化为30 ka左右,其中一个群体接受了来自更深分化群体的不同水平的基因流(我们假设他们的差异为90 ka;图S12)。 我们发现,来自分化群体的基因流影响了 PSMC 和 MSMC 的估计进化轨迹的符合数量(图S13),反映了在TW(图 3)观察到的模式。 这一分析支持了这样一个假设,即 HAW 基因组有一定比例的祖先来自分歧更深的狼谱系。

4、HAW和狗群体的混合

接下来,我们使用相对同系(rIBD)和基因座特异性分支长度(LSBL)统计量寻找适应性渐渗的证据。我们鉴定出了在TD和HAW之间表现出最强适应性渐渗信号的三个基因:EPAS1PRKCE和TMEM 247。这三种基因都出现在10号染色体的同一个区域。特别是,与邻近区域相比,含有 EPAS1 的区域显示出最显著的渐渗特征(由“ABBA/BABA”、fd统计和RFMix支持)以及TD/HAW和LD/LW之间最显著的群体分化(FST)。总之,这些结果表明选择可能发生在这个基因上。

图4

5、现代HAW和狗中 EPAS1 基因来自一个古老的谱系

由于HAW是青藏高原特有的,先前的分析表明,家犬引入高原后,适应性 EPAS1 等位基因的渐渗方向是从 HAW 到 TD。然而,我们观察到TD中适应性等位基因的频率更高(60/68;88.2%)高于HW和TW(75%;[2 + 13]/[2 + 18])(图4A)。

图S18

我们接下来通过将跨越 EPAS1 和跨越染色体10的相邻区域的序列划分为100、250、500和1,000 kb的长度来构建树。我们发现,包括 EPAS1 在内的整个区域的系统发育具有一种拓扑结构,其中TD和HAW是 LW 和其他犬的基础谱系(图S18)。这与 EPAS1 区域周围区域的拓扑结构相反,其中HAW是所有狗和LW的基础谱系。此外,我们通过整合来自郊狼、非洲野狗、和北美狼的基因组构建了 EPAS1 及其侧翼区域的单倍型树。NJ树显示,HW、TW和TD携带的适应性 EPAS1 序列聚类为不同进化枝泛北极区LW和狗的(图4 B)。我们注意到,HAW的 EPAS1 被分配到TD的多样性范围内,这可能是由于本研究中HAW的取样有限或HAW最近的种群下降导致该地区多样性大幅下降。

如图4b所示,HAW + TD分支的位置随 EPAS1 邻近区域的长度而变化。 利用 EPAS1 基因和两侧50kb区域产生的数据表明HAW和TD携带的独特适应性序列是金豺的基础谱系。 然而,当侧翼区域从两侧的50 kb增加到100和300 kb时,这个分支进入了金豺狼谱系。 最后,当侧翼区域增加到400 kb时,HAW + TD分支成为狼和狗分支的姐妹支,类似于使用“发散”序列(图2C)构建的树。 这是不足为奇的,这些拓扑结构的差异可能归因于HAW和狗对 EPAS1 的强烈选择和通过重组而分解跨越 EPAS1 的片段的综合效应。 根据这些数据,我们假设高原犬中存在的适应性 EPAS1 等位基因既不是从LWs也不是从LDs传入的,而是从两者的祖先血统传入的。

由于EPAS1 在很强的正选择下进化,适应性突变的出现和蔓延可能会混淆系统发生推断。我们在10号染色体含有EPAS1 的区域(Chr10:48,551,410-48,694,966;143.5kb)共鉴定了1,242个变异体,其中500个在TD中的频率>88.2%,在LD中<10%(图4A)。 我们在基因组上没有发现其他区域有如此多的连锁变异在两个群体之间的频率上达到了类似的极端差异。 为了测试选择作用于从头突变(SDN)或常设变异(SSV)是否会导致这种模式(许多高度分化的位点),我们假设在不同选择强度和重组率下的两种可能情况,模拟了143.5kb的区域。 我们发现EPAS1 区高度分歧位点的数量明显大于模拟数据(图4c),表明SDN模型和SSV模型都不能解释EPAS1 中观察到的模式。由于包括EPAS1 在内的系统发育包括青藏高原的狼和狗都是狗和所有其他灰狼基础谱系(图4B和图S18),我们假设该等位基因产生于一种古老的狼样犬科动物,它很可能栖息在QTP的高海拔地区。

上一篇下一篇

猜你喜欢

热点阅读