佛得角群岛拟南芥快速定殖的适应性机制和de novo变异造成的开
NATURE COMMUNICATIONS | (2022) 13:1461 | https://doi.org/10.1038/s41467-022-28800-z
一、研究背景和目的
理解生物适应新环境对于预测和降低生物灭绝的风险十分重要。
一方面,适应可能是许多小效应变异造成的;另一方面,当选择压力很强而存在的遗传变异很少时,大效应的变异可能是适应的关键。
理论模型显示了遗传多样性和选择强度对形成适应性式样的重要性。在实践中,重建自然群体的适应性历史是具有挑战性的。长期的colonization events所产生的孤立群体排除了混合和二次接触的影响,从而提供了检查群体适应新环境这一进化过程的机会。
作者基于佛得角群岛的拟南芥这一孤立的定殖体系,探究了其适应的进化过程。
二、研究方法和特色
相较于欧亚和摩洛哥地区拟南芥种质的采集点,Cape Verde Islands (CVI) 的气候更加干旱,降水的季节性更强,生长季也更短。气候上的差异可能会造成 CVI 地区的拟南芥种质受到更强的自然选择。
作者收集了Cape Verde Islands (CVI) 上分布的拟南芥种质335份,结合群体遗传推断和性状定位重建了其进化历史,包括:系统发生起源、群体结果、起源时间、变异分化式样、适应过程中受到了强烈正选择、环境适应性、趋同进化的开花时间提前。支持了在选择很强而可用变异较少的时候,大效应变异通常发挥着更重要的作用。
三、主要结果和重要发现
Reconstructing demographic history of CVI Arabidopsis from genome-wide patterns of variation
基于本研究新测的 335 份 CVI 地区拟南芥种质全基因组序列,以及先前发表的欧亚和摩洛哥地区的拟南芥样品的全基因组序列,重建了 CVI 拟南芥的进化历史。
Fig. 1a 展示了摩洛哥以及 CVI 地区两个岛屿的取样分布;Fig. 1b 的 NJ 树表明,来自 CVI 地区 2 个岛屿的样品紧密地聚在一起,并嵌入了摩洛哥分支内部。
Fig. 1 Population structure of Cape Verde Arabidopsis. a. Sample locations of sequenced lines from Morocco (green, n=64) and the Cape Verde Islands, Santo Antão (blue, n=189) and Fogo (orange, n=146). The base map used derives from the World Imagery Map117and was accessed through the R package leaflet118. Values on the x-axis and y-axis represent, respectively, longitude and latitude. b. Neighbour-joining tree showing relationship of CVI (n=336, in blue and orange) to worldwide samples. Morocco: n=64, in green; Eurasia: n=180, including 20 samples, each from 9 representativeclusters26. Divergent Iberian lines, or relicts, are shown in dark green, other Iberian lines (non-relicts) are shown in purple, and all other Eurasian lines in magenta. Source data are provided as a Source Data file.相较于大陆(摩洛哥),CVI 地区 2 个岛屿群体的多态性分别降低了 73.3 和 62.3 倍。
Fig. 2a, 2b 表明摩洛哥与 CVI 之间几乎不存在共享的变异,CVI 两个岛内的变异位点也极少存在共享。CVI 中 99.9% 的变异都不存在于摩洛哥,CVI 中 99.4% 的分离变异位点只存在单个岛屿内。
Fig. 2 Demographic history of Cape Verde Arabidopsis. a Joint site frequency spectrum between Cape Verde and Morocco and, (b), between the two islands, Santo Antão and Fogo. The colour scale represents the number of variants in each frequency class. c Historical population size trajectories within (SA-SA, FO-FO) and between islands (SA-FO) inferred from RELATE. Shaded areas represent the 95% CI calculated from the genome-wide distribution of coalescence events. d Estimated split times between islands from MSMC-CCR (point estimate at the vertical red line (4.0 kya), 0.25–0.75 cross-coalescence rate quantiles shown as shaded red area (3.1–5.0 kya)), and dadi (point estimate at the vertical blue line (3.7 kya), 95% CI as shaded blue area (2.6–4.8 kya)). Source data are provided as a Source Data file.Supplementary Fig. 3 Linkage disequilibrium (LD) decay in all three populations. X-axis shows distance between SNPs in kbp, and the y-axis the corresponding r2 value. Decay of LD is shown for Santo Antao (blue), Fogo (orange) and Morocco (green). Lines were smoothed with locally weighted scatterplot smoothing (LOESS) and the shaded grey area represents the 95% confidence interval.# 2a 和 2b 是 Joint SFS,等位基因频谱指的是群体中特定基因位点上各个等位基因所占的频率。图中颜色深浅表示变异位点的数目,坐标轴表示等位基因频率,可以发现,无论群体内等位基因频率高低,变异位点在两个群体之间几乎都不共享。
# 2c 展示了有效群体大小的变化,最初的一个小群体,在最近发生了群体扩张。
LD decay 在每个岛屿群体中衰减的速度更快,这与 colonization 几乎丢失所有分离变异(缺少群体结构)和随后的群体扩张一致。
此外,拟南芥在 CVI 和 摩洛哥之间的分化程度惊人地高,4 倍简并位点(认为中性)的分化甚至高于拟南芥属中的不同物种之间。因此,每个岛屿的群体形成了一个 diverged, monophyletic group,而且和其它地区的拟南芥具有明显的生态地理分离,可作为 island endemic species 的模式进行研究。
Moroccan High Atlas 群体在遗传上和 CVI 相似度最高,但基于叶绿体和 S-locus 的序列分析表明,最能代表 CVI 的外类群应该是没有被取样覆盖到。
为估计 CVI 定殖时间的上限,作者模拟了 CVI 和未取样的 “ghost” 外类群之间的分化,作者采用了几种互补的方法,包括基于 joint site frequency spectrum 的推断、基因组中 coalescence events 的重建、正向模拟的比较,结果表明摩洛哥群体和 “ghost” 外类群在 40-60 kya 前分开,然后 CVI 在 7-10 kya 前从 “ghost” 外类群定殖。
为估计 CVI 定殖时间的下限,作者检测了 CVI 内部的 coalescence 时间。历史重建表明 2 个岛屿群体都经历了强烈的瓶颈,抹除了先前存在的几乎所有变异。基于haplotype coalescence events,作者估计了 colonizers 的数目和置信区间。如 Fig. 2c 中展示的,Santo Antão 和 Fogo 的奠基者数目分别为 40 和 48。在最初的定殖之后,由于遗传漂变造成多态性进一步降低,并在祖先群体中共享。为了衡量这种影响,作者基于推测的有效群体大小进行了模拟,结果表明每 10,000 个变异位点中只有 1.7 个来自最初的奠基者群体。表明几乎所有的变异分离位点都是定殖后重新发生的变异造成的。
在两个岛屿之间,变异模式也存在差异。Santo Antão 在分离位点具有更高比例的私有变异,而 Fogo 表现出更高比例的私有固定变异(Fig. 2b)。和此一致的是,在 Santo Antão 中发现了深度的群体结构和有限的基因流,而 Fogo 更加干旱,不存在早期的亚群体分离。早期适度扩张后,Fogo 群体在一段时间内处于随机交配,且群体大小受限。证据支持一个模型,即 Santo Antão 首先在 5-7 kya 定殖,而后 Fogo 在 3-5 kya 从 Santo Antão 定殖(Fig. 2c, 2d)。
Moroccan climatic niche and suitability of CVI landscape
为推测 CVI 气候对刚定殖的拟南芥的适合度,作者模拟了摩洛哥拟南芥的生态位,并基于此预测了 CVI 的适合度。发现 CVI 不存在适合摩洛哥拟南芥生存的区域。
由于从 CVI 收集点获得的气候变量分布通常都在适合摩洛哥拟南芥生长的范围之外,作者采取了一种检测多元环境相似面的方法,从该结果来看,气候相似性最高的地区是 Santo Antão 和Fogo。尽管可能在定殖的时候 CVI 和摩洛哥气候更相似,或者摩洛哥群体扩散至更极端的气候区域,但基于当前结果可以看出,CVI 和摩洛哥在气候的多个方面存在很大差异。
Fig. 4 Moroccan and CVI predicted distributions. a Moroccan A. thaliana occurrence locations and (b), predicted climate envelope within Morocco. In(b, c) colours represent the predicted probability of occurrence and habitat suitability, with blue indicating low probability and red high. c Predicted climaticsuitability for Moroccan Arabidopsis in CVI and (d), predicted similarity of CVI climate to the Moroccan A. thaliana climate envelope expressed as apercentage of how dissimilar each point is in relation to the range of values used in the model. More negative (red) values indicate higher dissimilarityrelative to Morocco. Maps were produced using ESRI ArcGIS.Evidence for adaptation based on functional genetic divergence and differential fitness
遗传漂变和正选择都会造成基因组上的遗传分化。作者使用了 2 种方法调查了 CVI 中适应性进化发挥的作用,分别是基于谱系的多态性和分化水平、和 CVI 与摩洛哥条件下相对繁殖成功的试验。
首先,作者基于一种类似 dN/dS 的方法,比较分别代表选择和中性的 0-fold nonsynonymous 和 4-fold synonymous 比例。简单来说,这个值大于 1 表明正选择,小于 1 表明纯化选择。比较包括摩洛哥与CVI的共同祖先(在 CVI 中固定但不存在于摩洛哥的变异),以及和每个岛屿之间(变异私属于每个岛并固定)。发现两个岛屿的比值高于大陆,和新生谱系会受到较强正选择的现象一致。
Fig. 5 Population genetic signatures of adaptive evolution in CVI. a Schematic of phylogeny separating branches examined in dsel/dneuanalysis.b Evolutionary rate ratios dsel/dneuacross populations (observed data shown as diamonds) with n=500 bootstrap resampling replicates showing median(line), 1st and 3rd quartiles (bounds of box), minimum and maximum (whiskers). Mor: Morocco; CVI: branch between Morocco and CVI; SA: branch fromthe island split to Santo Antão; FO: branch from the island split to Fogo. c Distribution of fitness effects for Morocco (green), Santo Antão (blue), and Fogo(orange). Grey dots represent estimates from 500 bootstrap analyses. d Fitness scaled to seed number in CVI and Moroccan lines under CVI andMoroccan conditions. Medians per population are shown by the dots, and 95% CI by the whiskers. Y-axis values are log10transformed. Source data areprovided as a Source Data file.作者进一步推断了基于分离变异的适应度效应的分布,或者说基于尺度选择系数的离散分布。不同选择系数代表了不同效应,近似中性(-1 < S < 0),正选择(1 < S < 10),负选择( S < -10)。在 Fogo 中,固定的非同义突变是 DFE 中主要的,代表了分支水平典型的正选择信号,而 Santo Antão 中非同义突变是中到高频率的,和群体分层和局部适应有关。
需要了解的是,群体历史可能影响 dsel/dneu 的估计,由于在群体快速扩张下可能固定有害变异,该估计可能会被夸大。相反,在摩洛哥可能由于最近的群体瓶颈而造成 dsel/dneu 低估。而且,LD 和群体动态可能会违背 DFE 推断的假设。但总的来说,结果与 CVI 在向新的适应性最优转变后强烈的正选择一致。
作者检测了 CVI 和摩洛哥分支在本地环境相较于外地环境中据偶更高的相对适应性的证据。在分别匹配 CVI 和摩洛哥环境的温室条件下种植两种类型的株系。结果发现在 CVI 环境下,CVI 株系具有更高的适合度,而摩洛哥环境下,二者无显著差异。
Evidence for ongoing multivariate adaptation in Santo Antão
作者分析了 Cvi-0 和 Ler-0 杂交产生的重组群体中进行的 129 项定位研究,确定了一些 QTL、候选基因和特定的功能变异。该数据集允许我们探究 Cvi-0 和其它株系表型分化的遗传多态性是否存在于定殖的群体中,以及是否代表了定殖后的 de novo 变异。Cvi-0 和 Ler-0 分离的变异中,99.23% 在 CVI 中是固定的,可能存在于定殖群体中;0.77% 的位点仅在 Santo Antão 中存在,可能是 CVI 中起源的新突变。
从 QTL 到候选基因到功能突变,私有变异的比例越来越高,表明 CVI 的适应性变异是定殖之后出现的而不是从北非的祖先中遗传得到的,而这些变异位点不存在于 Fogo,可能是不同的遗传变异在其适应中发挥作用。
Fig. 6 Evidence of multivariate selection from 129 QTL mapping analyses using Cvi-0. a Representative subset of previously identified QTL in Cvi-0 xLer-0 RILs, with validated functional variants in red. Each segment along the chromosomes represents one QTL region with colours representing phenotypicclasses. b Schematic of the relationship between the RILs parents, with branch lengths proportional to the percentage of genome-wide variation fixed inCVI and segregating in Santo Antão. c Percentage of variation private to Santo Antão in QTL regions (n=121), candidate genes (n=142) and functionalvariants (n=11). Horizontal line shows the genome-wide average. Each grey dot represents a single QTL, candidate gene or functional variant, blue dotsrepresent the average, and error bars represent the 95% CI. Source data are provided as a Source Data file.Mapping and historical reconstruction reveal convergent genetic adaptation to reduce flowering time
作者在模拟CVI条件下记录不同植株的开花时间,发现两个岛屿的材料开花时间早于摩洛哥。为了确定两个岛屿上早花表型是否来自相同的变异,作者研究了岛屿之间3个F2群体的表型分离,确定了开花时间在两个岛屿上为趋同进化,涉及到了不同位点。
Fig. 7 Adaptation through parallel reduction in flowering time in CVI. a Bolting time in CVI relative to Morocco with two-sided MWW test to comparedistributions (p-value < 2.2 × 10-16). Boxplots show median (centre), 1st and 3rd quartiles (lower and upper bound, respectively). Whiskers represent 95%CI. b Days to bolting versus fitness (seed number); inset: means and 95% CIs. c Bolting time is transgressive across islands in three inter-island F2populations. Vertical lines represent medians of days to bolting across replicates of the Santo Antão (blue) and Fogo (orange) parents. d Bolting timeGWAS in Santo Antão. Dashed line represents Bonferroni-corrected genome-wide significance. e Effects of FRI alleles on bolting time and seed numberunder simulated CVI conditions (n = 189). Small symbols represent individual lines, large symbols population means with 95% CI (whiskers). f Inferredallele frequency trajectory of the derived FRI 232X in Santo Antão. The black curve represents the posterior mean of the allele frequency and the colouredarea the posterior distribution. g Frequency distribution of the Fogo allele in an early flowering bulk from an inter-island F2 population reveals a peak at FLC.Median frequency per window (line) and one standard deviation (shading) are shown. h Effects of FLC alleles on bolting time and seed number undersimulated CVI conditions (n = 146) as in (e). i Inferred allele frequency trajectory of the derived FLC 3X allele in Fogo, as in (f). Source data are provided asa Source Data file.为了鉴定和开花时间有关的位点,作者基于LMM模型进行了GWAS分析。在Santo Antão群体中鉴定到了1个包含FRI基因的单峰,该基因包含一个无义突变位点,该变异解释了46.4%的开花时间变异和11.4%的适合度变异。
功能研究确定了该基因发挥的作用。
该变异位点的coalescent reconstruction表明该等位基因起源于2.14 kya和2.9 kya之间,并迅速在岛中传播,而固定可能受到了基因流障碍的影响。基于推断的频率轨迹,作者估计选择在2-4 kya达到最强,其传播的时间大概和拟南芥向干旱地区扩张的时间一致。
Fogo更加干旱,开花时间较早且方差较小,表明至少有一个导致开花时间缩短的基因在Fogo中是固定的。在一个F2群体中,开花时间表现出了双峰分布1:3的分离,且GWAS没有主峰,表明存在单个大效应的早花基因。对许多早花的F2个体测序,发现FLC的等位基因频率达到了100%,该基因存在提前终止。
该变异位点的coalescent reconstruction表明其在定殖后3.31 kya和4.72 kya之间出现,受到了强烈的自然选择。综上,Santo Antão和Fogo中独立出现了造成开花时间提前的功能丢失突变,并且它们的出现和两个岛屿上有效群体大小的增长有关。
Extinction risk and adaptation via large effect mutations
群体在新环境的定殖通常面临着多重挑战。定殖通常伴随着强烈瓶颈,这会降低适应所能用的standing variation。当选择机制下出现突然和严重的变化时,灭绝的风险很高。因为在一个小的群体内,预期等待有益突变的时间可能大于灭绝的时间,这种情况下适应依赖于偶然的突变事件。
理论预测,当选择很强而突变很少时,适应的第一步很可能利用大效应的突变;当突变很多而选择很弱时,适应通常是多个小效应突变造成的。
作者估计了全基因组的突变率,然后应用历史群体大小和选择系数来检验CVI的适应属于哪种模型。结果表明CVI的适应是可预测的,属于前者。
4. 优缺点分析
文章选用了一个独特的孤立进化体系,排除了基因流的影响研究适应的进化过程,且为近期的适应性,噪音较少,研究材料为拟南芥,植物功能研究的模式物种,研究背景清晰丰富。
科学问题重要,适应过程的研究在进化领域的重要性不言而喻,探讨了效应大小和适应性的关系,揭示了趋同进化在植物适应性中发挥的作用,且研究体系和科学问题契合。
研究内容丰富,工作量大。理论背景扎实,使用了丰富的方法探究所需科学问题。