2022-12-02 | 普遍渗入促进了牛属物种复杂的驯化和适应
●英文题目:《Pervasive introgression facilitated domestication and adaptation in the Bos species complex》
●期刊:Nature Ecology & Evolution
●影响因子:2022_IF=19.100;中科大类: 生物学1区; 中科小类: 生态学1区,进化生物学1区; JCR分区: Q1
●发文单位:中科院昆动所、中国科学院大学、中国农业大学、波兰科学院等多个机构
●文章作者:中科院昆动所吴冬冬、丁向东,中国农业大学王胜等为共同第一作者;中科院昆动所研究员吴冬冬,张亚平院士,中国农业大学教授张琴,为文章共同通讯作者
●摘要: Bos 属的物种,包括 taurine(普通牛), zebu(瘤牛), gayal(大额牛), gaur(印度野牛), banteng(班腾牛,爪洼野牛), yak(牦牛), wisent (欧洲野牛)和 bison(美洲野牛),已经被驯化至少四次,并且已经成为许多人类文化的肉、奶和劳动力的重要来源。我们对大额牛、印度野牛、班腾牛、欧洲野牛和美洲野牛的基因组进行测序,并提供另外98个个体的群体基因组测序数据。我们利用这些数据来确定这些物种的系统发育和进化历史,并表明濒危的大额牛是一个独立的物种或亚种。我们的结果表明,这个属的不同成员之间有明显的渗入,并且在许多情况下涉及到具有相当大的适应性重要性的基因。例如,牛的驯化选择基因(例如 MITF)就是从家牛渗入牦牛的。此外,缺氧反应通路中的基因(例如 EGLN1、 EGLN2和 HIF3a)已经从牦牛渗入到藏牛,可能促进了它们对高海拔的适应。我们还验证了渗入的 EGLN1等位基因与血红蛋白和红细胞浓度之间存在相关性。我们的研究结果说明了渗入作为适应性变异和驯化过程中的重要性,并表明 Bos 属进化为具有共同进化轨迹的遗传相互关联的复杂物种。
●前言:
普通牛 (Bos taurus taurus,以下缩写为“taurine”) 和瘤牛 (Bos taurus indicus) 是最常见的大型已驯化的有蹄类动物,并且都被视为同一物种 (Bos taurus) 的成员。 Bos 属的另外三个物种 gayal (Bos frontalis)、banteng (Bos javanicus) 和 yak (Bos grunniens) 也已被人类独立驯化。印度野牛 (Bos gaurus)、美洲野牛 (Bison bison) 和欧洲野牛 (Bison bonasus) 是仅有的三种未被驯化的现存野牛物种。taurine、zebu、gayal、wisen 和 yak 的最新基因组测序数据极大地提高了我们对这些大型有蹄类动物进化的理解,并帮助阐明了这些物种驯化和适应的复杂过程。
然而,这个复杂属的许多方面仍然是大量猜测的主题。例如,Bos 属内物种之间的系统发育关系是有争议的,不同的研究报告了不同的拓扑结构。特别是,gayal 的系统发育位置仍在争论中。据称 gayal 是野牛的独立物种或家养形式,并且有人认为它是野生野牛和家牛杂交的杂交后代。此外,通过人类介导的迁徙,taurine 和 zebu 现在几乎占据了世界所有地区,并且可能通过基因渗入促进了区域物种(例如,gayal、banteng 和yak)的驯化。同样,区域物种(例如gaur、gayal、banteng、yak、wisen 和 bison)可能对家牛和 zebu 的基因库做出了贡献,从而帮助它们适应当地环境。基因渗入和混合在多大程度上成为该物种复合体驯化和形成的驱动力仍然是一个悬而未决的问题。
在这里,我们使用大规模基因组来确定Bos属内这些物种的系统发育和进化史,并表明濒危物种gayal是一个独立的物种或亚种。我们的结果表明,Bos属的不同成员之间存在明显的渗入,并且在许多情况下,它涉及具有重要适应性的基因。
●结果和讨论:
1、系统发育分析
我们为 gayal、gaur、banteng、American bison和 wisen 生成了五个高深度(~ 20×)的全基因组,并将这些数据与三个先前发表的来自taurine、zebu 和 yak 的高深度基因组相结合。首先使用高深度全基因组来估计这些物种有效种群规模的长期趋势,使用PSMC,发现在~ 20,000–50,000年前所有这些现存物种的种群规模急剧下降,那时恰逢末次冰河时期和现代人类在欧亚大陆和美洲的传播。
接下来,我们使用 RAxML 程序为常染色体使用NJ和ML法推断出串联的基因组树。拓扑((taurine, zebu), (((gaur,gayal), banteng), (bison, yak))),此后标记为Topology A,NJ法和ML法都得到相同拓扑(图 1 和 图 S2a,c)。
图1 图S 2 我们还使用常染色体序列进行了 ASTRAL 分析和 MP-EST 分析,并发现在高bootstrap下依旧支持Topology A(图 S3a,c)。 图 S3然而,我们也注意到基因组的许多片段支持其他可变拓扑。例如,X染色体的最佳支持拓扑是 (((taurine,zebu),(gaur,gayal)),banteng),(bison,yak)) (图S2b, c和S3b, d )记为Topology B,此后,我们还仅使用CDS序列来推断RAxML和MP-EST的系统发育,并根据MP-EST分析的窗口大小的选择获得不同的拓扑 (图S2和S11)。
图S11 与先前的研究相似,线粒体系统发育与核DNA系统发育不一致 (图S12),可能是由于遗传渗入或谱系分类不完全导致。 图S12为了进一步研究这些模式,我们将基因组分成 100 kb 的非重叠窗口,分别为常染色体和 X 染色体产生 25,127 和 1,489 个窗口,并分别估计所有窗口的最大似然树。最常见的拓扑是拓扑 A;然而,即使是这种拓扑结构也仅分别存在13.42% 和 13.97% 在常染色体和 X 染色体片段中。使用 1 Mb 非重叠滑动窗口时也发现了类似的结果。尽管存在大量系统发育信号,但大多数拓扑结构如此罕见的观察结果表明,不完整的谱系分类或基因渗入正在驱动这些物种的系统发育模式。
我们发现Topology A的树平均长度比Topology B长(图 S 2e),这一观察现象与Topology A反映主要的物种树(图 1)的假设相符,但其他拓扑,例如Topology B,至少部分是由于渐渗而发生的。为了进一步阐明渐渗是否有助于解释观察到的拓扑不一致,我们进行了一系列 ABBA-BABA 测试,确实发现了不同物种之间普遍渐渗的证据。
我们使用常染色体序列通过 CoalHMM 进一步推断了分歧时间,并发现 gayal 和 gaur 在 ~994,000 年前分歧(图 S13)。
图 S13 考虑到相对较长的分化时间,并且 gayal 的核型为 2n = 58,而 gaur 为 2n = 56,我们认为 gayal 应该被视为单独的亚种甚至物种,而不是野牛的家养形式,并且可能是从已灭绝的亚种或物种驯化而来的。这些结果将有助于促进未来对分布在东亚南部的 gaur 和 gayal 的遗传多样性和进化的探索,特别是有助于集中 gayal 的保护工作。需要注意的是,我们对分化时间的估计往往低于以前的 treetime (http://www.timetree.org/) 中报告的那些时间,后者来自许多根据分子数据或化石记录推断的研究。一种可能的解释是我们的估计存在偏差,这是由于我们通过将其他物种的测序读数比对到牛参考基因组来进行 Call SNP 的程序。此过程可能会遗漏高度不同区域中的一些变体。另一种可能的解释是基因渗入,这也会减弱对分化时间的估计。每个物种的 De novo 基因组可以帮助区分这些解释。2、基因渗入分析
接下来,我们从中国、印度和孟加拉国的 22 只 gayal、来自印度和中国的 59 只 taurine 和 zebu、7 只从 banteng 驯化的bali、10 只 wisent 中生成了另外 98 个基因组,测序平均 5×,并与之前发表的来自 6 头yak和 33 头欧洲和韩国的 taurine 基因组相结合,以研究基因渗入的潜在模式和后果。为了估计这些物种基因渗入的历史和模式,我们使用 TreeMix 来估计混合树 。从家牛到 bison 和 wisent 推断出渐渗事件(图 1 和 图 S17 ),证实了以前的工作。此外,还确定了从 zebu 到 gayal,以及从 zebu 到 bali 的基因渗入。 D 统计分析(ABBA-BABA 测试)支持这些基因渐渗信号。 图 S17 由于在先前的研究中已经研究了wisent和欧洲牛之间的混合,因此我们将分析重点放在 zebu 和 bali 牛之间以及 zebu 和 gayal 之间的渗入上。我们使用rIBD统计的相对频率来推断基因组的渗入滑动窗口的区域 (窗口大小,20 kb; 步长,10 kb)。rIBD值为正,表明zebu和gayal或bali牛之间可能发生渗入 (图S19和S20)。我们进一步估计了每个基因组片段的所有个体的系统发育树,以证实遗传渗入的信号,并发现使用 rIBD 分析来识别zebu和gayal之间以及zebu和bali牛之间的遗传渗入,不一致率分别是0.38% 和18.8% 。通过系统发育分析验证的渗入节段分别在zebu和gayal之间以及zebu和bali牛之间总共包含约32.42 Mb和约25.61 Mb,并具有451和328的蛋白编码基因。 图S19 图S20基于表达谱的分类还显示了神经系统和免疫系统中的类似富集 (图S19和S20)。基因富集分析确定了一些参与免疫和神经系统的基因,尽管不同的方法确定了不同的富集类别。
我们检测了每个渗入地区的gayal和bali牛之间的 FST,以评估是否有任何正向选择的证据。我们确定了一些 FST 升高的渗入区域。在显示从 zebu 到 gayal 的渗入并且具有高水平的 FST 的十个区域中,我们注意到一个区域 (chr5: 100300001-100770001) 包含一组基因 (CLEC1A,CLEC9A,CLEC1B,CLEC2A,KLRF2,CLEC12A, CLEC12B) 编码C型凝集素/C型凝集素样结构域 (CTL/CTLD) 超家族的成员 (图S21)。
图S21含有这些基因的人类直系同源区域位于12号染色体的短臂上,包括在自然杀伤细胞、树突状细胞和内皮细胞中表达的 CTL/CTLD基因,在免疫系统中起重要作用。它可能暗示了疫和防御相关的适应的可能作用。
zebu 和 gayal 之间的最高渗入峰仅包含一个基因 SYN3(图 S19a),系统发育分析支持 SYN3 从 zebu 到 gayal 的基因渗入(图 S19c)。基因渗入的 SYN3 显示出高水平的 FST,与 gayal 中的正向选择信号相一致。 SYN3 是突触蛋白基因家族的成员,突触蛋白基因家族是神经元特异性突触小泡相关磷蛋白家族,与突触发生和神经递质释放的调节有关。 Syn3基因敲除小鼠在条件性恐惧中表现出扰乱。这使它成为一个特殊的驯化相关基因,因为驯化动物表现出对人类的恐惧减少。类似地,区域(chr17:74800001–74820001)显示从 zebu 到 bali 的基因渗入以及在具有高水平 FST 的 bali 中的潜在正向选择,包含 SEPT5 和 GP1BB。 Sept5 基因敲除小鼠表现出焦虑相关行为减少。先前的研究报告指出,许多与神经系统有关的基因是在人工选择下进化而来的,这与家养动物与其野生祖先相比的行为转变密切相关。zebu 被驯化的时间比 gayal 牛和 bali 长得多,并且神经基因从 zebu 向 gayal 牛和 bali 的渗入可能促进了后者的成功驯化。支持这一点的是,最近的一项研究报告显示,家养牛和 yak 之间的基因渗入显着丰富了与大脑发育和功能有关的基因。
3、yak和藏牛之间的基因渗入
我们接下来使用 rIBD 研究了牦牛和藏牛之间的渐渗模式。每个基因组片段的系统发育树与使用 rIBD 做出的推论一致。总共约 30.7 Mb,包含 541 个蛋白质编码基因,表现出藏牛和牦牛之间的基因渗入信号。值得注意的是,18 号和 28 号染色体上有几个大区域具有较大的 rIBD 值,显示出牦牛和藏牛之间非常强烈的基因渗入信号。 ABBA-BABA 测试进一步支持了这些区域中的混合信号。我们还使用了第三种方法 RFMix 进行局部血统推断,它为藏牛和牦牛之间的基因渗入提供了额外的支持。最后,我们使用了参考文献中的方法以排除这些长区域(P = ~0)的不完整谱系分类的可能性。这些地区显示藏牛和zebu之间的种群分化水平较高,但牦牛和藏牛之间的种群分化水平较低,证实了从牦牛到藏牛的基因渗入。
我们将 28 号染色体上的两个区域分成不同的窗口,并计算每个区域的 rIBD 峰值和 RFMix 值。系统发育分析强烈支持从牦牛到藏牛的渐渗方向。特别是,第二个窗口包含 EGLN1,它是缺氧诱导因子 (HIF) 通路中的一个基因,也是西藏人类适应缺氧的两个关键基因之一。 EGLN1 单倍型的网络构建支持从牦牛到藏牛的渐渗(图 3a)。我们进一步检查了 EGLN1 基因渗入的表型结果,发现携带类似牦牛的 EGLN1 单倍型的藏牛平均表现出比其他藏牛低得多的血红蛋白浓度和红细胞计数(图 3b)。这种模式与在西藏人中观察到的 EPAS1 模式一致,这有利于减弱对缺氧而诱导的适应不良表型变化的反应,例如血红蛋白浓度升高(红细胞增多症)。
图3另一个强候选区域长约 10 Mb,位于 18 号染色体 (46125199–56073102)。它具有显着升高的 D 值和使用 RFMix 的基因渗入信号,并在藏牛和 zebu 之间表现出高水平的FST,但在牦牛和藏牛之间表现出较低水平的FST。单倍型的系统发育分析也强烈支持基因渗入的方向是从牦牛到藏牛(图S 27)。
图S27 值得注意的是,渗入单倍型在 HIF 通路中包含两个基因:EGLN2 和 HIF3a。牦牛被认为已经在青藏高原居住了数百万年,并且对高海拔有许多适应性,例如肺部和心脏大大增大。相比之下,驯化 taurine 仅在几千年前才被人类引入青藏高原。 taurine 最初被带到青藏高原时可能没有很好地适应极端环境,在那里饲养时通常仍患有严重的肺动脉高压。我们的结果表明, taurine 通过基因渗入从牦牛那里获得了一些 HIF 通路基因。这种模式模拟了在人类中观察到的关键 EPAS1 单倍型从丹尼索瓦人渗入到藏人中的模式,以及在狗中从藏狼渗入到藏獒中的模式。值得注意的是,在所有这三个人类或人类驯养动物的案例中,适应高海拔的一个关键步骤似乎是已经适应当地环境的相关物种的基因渗入。我们还调查了家养牦牛是否在驯化过程中接受了家养牛的等位基因。我们确定了 5.54 Mb,其中包含 89 个从家牛渗入到牦牛的蛋白质编码基因,其中包括以前报道的两个区域。在牦牛参考基因组中以纯合状态渗入。有趣的是,我们还发现了MITF中等位基因的基因渗入。 MITF 是黑素细胞的主要调节因子,在它们的发育、分化、功能和存活以及色素合成中发挥关键作用。 MITF 靶向许多色素基因,例如酪氨酸酶 (TYR)、多巴色素互变异构酶(DCT,也称为酪氨酸酶相关蛋白 2 或 TYRP2)和酪氨酸酶相关蛋白 1 (TYRP1)。先前的研究表明,牛在驯化过程中受到最强选择的基因是与毛色相关的基因,而驯化选择最强烈靶向的基因之一是 MITF。据推测,牦牛与涉及毛色的牛进行了类似的驯化选择,促进了 MITF 等位基因的适应性基因渗入。