水稻驯化过程中结构变异的进化基因组学研究
![](https://img.haomeiwen.com/i23569980/6992a502c9b92a54.png)
Mol. Biol. Evol. 37(12):3507–3524 doi:10.1093/molbev/msaa185
一、研究背景和目的
关于结构变异还有许多研究不清楚的地方,比如:结构变异SV对表型的影响,SV的普遍性,个体SV事件在群体内的频率。研究的第一步需要鉴定群体内的SVs,过去基于长短reads对此进行了大量研究并取得了一定进展。尽管通过提高测序深度,短reads序列也可以用于鉴定SVs,但对某些SV类型的鉴定上,仍存在低估,比如大的INV,因此作者增加了长reads序列和de novo基因组以确定鉴定到的SVs的准确性。
本文作者使用了水稻和其近缘野生祖先 O. rufipoogn 的样品,拟通过鉴定 SVs 作为研究驯化的工具。关于水稻的起源以及驯化基因的研究很多,为此提供了很好的研究背景。关于水稻 SV 的研究也有一些,但缺少同时比较野生稻和栽培稻的比较研究。
葡萄中比较了野生和栽培群体中的SV频率,提供了基因组中人工选择区域的独特见解,反映了与无性繁殖相关的遗传负荷会增加。但其它物种中的情况尚不清楚。此外,基因的获得丢失也仍是一个不断发展的领域。作者利用发表的高倍重测序数据鉴定了SV,然后比较了野生稻和栽培稻之间的SV群体频率;调查了不同TE家族的MEI频率;估计了和驯化有关的特征。
二、研究方法和特色
作者充分利用已发表的数据,除高倍重测序数据外,还使用了已发表的长reads序列和de novo基因组以确定鉴定到的SVs的可靠性。
基于鉴定到的SV分析了群体内的多样性、频谱分布、LD decay;驯化过程中的遗传负荷,群体间的分化水平,并同SNPs数据的结果进行了比较。
利用候选基因策略,评价了基于SV有助于提高寻找驯化基因的效率。分析了基因组中的不同TE家族的群体动态及造成差异的可能原因。
三、主要结果和重要发现
Comparing SVs among Short-Read, Long-Read, and Whole-Genome Data
基于重测序数据,作者鉴定了 SNP 和 indels,并基于 SNPs 构建了系统发生树,Fig. 1a所示,aus 和 indica 聚为一支,japonica 和 aromatic 聚为一支,O. nivara 和 O. rufipogon 聚到了一起,而 O. rufipogon 分为两支,一支主要是东南亚和印度的材料,另一支主要是中国的材料。由于野生稻中结构的存在,作者只用了其中一支野生稻进行后续的驯化分析。
![](https://img.haomeiwen.com/i23569980/c172038a44ead48e.png)
作者结合 Delly 和 Lumpy 的 population calls 鉴定了 DEL、DUP、INV、TRA 四种类型的变异,该方法鉴定到的 INS 不太准确,排除 INS 后共计得到了 824,390 个双等位 SVs。
作者基于多种方法验证了SV calls的准确性。
1)Fig. 1b 所示,基于 SV 和 SNPs 数据得到的群体结构和进化历史是相似的;
2)作者同 Fuentes et al. (2019) 基于 3K 数据得到的 SVs 进行比较,比较了 DEL、DUP、INV,重叠率为 90.14%,有 9.64% 的变异是先前研究未检测到的。本研究增加了野生稻,多样性增加也是可以理解的。
![](https://img.haomeiwen.com/i23569980/061d3873f4c57f64.png)
3)作者同基于 de novo assemblies 和 SMRT reads 得到的结果进行了比较,同样比较可靠性较高的 DEL、DUP、INV 事件。如下表所示,SMRT 和 de novo assemblies 的结果比较,前者的数据集更小,但检测到的 SV 更多,INV 和 DUP 的差异表明了检测方法的系统性偏差。总的来说,两种方法检测到的 3 种变异重叠度为 57.53%。
然后,作者比较了短 reads 检测到的结构变异,由于样本量较大,检测到的 SVs 更多。作者检测了数据集之间的重叠比例,发现长 reads 检测到的 3 种变异中,各有 70.07%、75.24%、43.22% 在短 reads 中被检测到,总共被检测到的比例为 65.35%,高于 SMRT 和基因组两者间的 57.53%,表明短 reads 的 SV calls 的结果是合理的。
Population Properties of SVs
作者聚焦于短 read SVs 调查了群体动态。为简单起见,作者将群体范围缩小到 indica、japonica 以及 O. rufipogon 的一个分支。
首先作者对 SV 的染色体位置进行了表征,利用滑窗分析了每个分类群的 SV 多样性。从视觉上看,没有令人信服的模式表明特定区域更容易发生特定的 SV 事件。但 SV 和 SNP 多态性在染色体窗口之间存在轻微但显著的相关性(Fig. 2A)。
![](https://img.haomeiwen.com/i23569980/785ee17bd596ba42.png)
# 频谱图中,横坐标为衍生等位基因频率,这里是计数的形式。每个类群选了 10 个个体,所以频率达到 20 即为在群体中固定,数字小即在群体内为低频。通过和中性频谱比较可以判断是否受到选择。同义突变的频谱 sSFS 可以认为是中性的。
作者计算了每个类群 4 种 SVs 的(10 个数据缺失较少的样本)unfolded SFS。SFSs 揭示了SV 多态性的 3 个特征:1)不同类群之间存在明显差异,栽培稻种固定变异的比例更高,U 形的 SFS 与驯化过程中瓶颈造成的遗传漂变增强和交配系统的改变一致;2)固定 SVs 的比例较固定的 sSNPs 和 nSNPs 低,表明平均来说 SV 变异是有害的,或者 SV 具有更高的突变率以至于很多新突变还没有频率提高的机会;3)不同 SV 类型的 SFS 也存在差异,INV 最极端,超过 90% 的 INV 只存在于 3 个或更少的个体内,表明强烈的选择或检测偏差。
相较 sSNPs,MEI 和所有类型的 SVs 都有着较低的群体内频率。因此,SVs 可能有着较低的LD,物理距离上更快的衰减。作者基于 SNPs、SVs、SNPs+SVs 分别计算了基因组上的 LD,发现不同类群的 LD decays 存在差异,不同标记类型的结果也不同,LD 衰减最快的为 SNP+SV,结果可能表明检测 SVs 对表型的影响具有重要意义。
SVs and Domestication
在其它驯化类群中,SV burden 增加是否是驯化的结果?SV 是否和受到正选择的基因组区域直接有关?以及驯化是否改变了基因?这些都是悬而未决的问题。本文作者基于获得的 SVs 数据集对这些问题进行了分析。
SFS 表明 SVs 和 MEIs 可能是有害的,反映了水稻驯化过程中的遗传负荷。每个个体 cost 的计算方式为 SV+MEI(杂合的+纯和的*2),从 Fig. 3A 可以看出栽培稻显著高于野生稻,这可能主要是交配方式改变造成的隐性 burden 增加造成的,两个品种隐性 burden 占加性 burden 的 72% 以上,但在野生稻中为 67%。这种模式在除了 DEL 外的变异类型中都存在。
![](https://img.haomeiwen.com/i23569980/b78a2f332d093c14.png)
作者分别基于 SNPs 和 SVs 计算了栽培稻和野生稻之间的分化水平,发现基于 SNPs 的结果分化水平高于 SVs,可能是 SVs 在群体内的频率较低造成的。
作者比较了基于 SNPs 和 SVs 计算的 Top 1% FST 窗口,只有少量窗口重合,但显著高于随机。indica 和 japonica 重合的只有 1 个,包含一个编码逆转录转座子蛋白的基因。作者分析了每个品种中 SNP-SV 共享窗口内的候选基因,同样没有发现和农艺性状有关的候选基因。最后单独分析了 SNP-only 和 SV-only peaks,对结果进行了 GO 分析。
作者对利用 SV 检测选择事件很感兴趣,故基于候选基因评价了 SVs 是否能增强其鉴定效果。针对 15 个已知驯化和改良基因,计算发现有 6 个位于 FST Top 1% 的窗口内(3 个只在 SNP 的计算中,3 个只在 SV 的计算中,均有显著富集在 FST peaks 中),表明 SVs 确实会有助于鉴定驯化基因。
![](https://img.haomeiwen.com/i23569980/82ad949c6c2fc965.png)
先前研究表明驯化基因可能是粳稻向籼稻中渐渗的,因此会在 2 个品种差异较小的区域内富集。作者同样进行了计算验证,发现 15 个基因都没有落在 FST trough(the lowest 99% percentile),但 3 个基因在 SNP 或 SV 的 90% 以上。相反,也有几个基因在两个品种间的 FST peaks,表明部分基因可能在籼稻粳稻之间存在渐渗,反映了水稻复杂的进化历史。
作者利用CLR方法搜索了类群特异的选择 sweeps。调查了 SVs 和 SNPs Top 1% 的 20 kb 窗口。在 FST 和 SweeD 中,SVs 的选择信号主要是 INV 造成的。而且,SVs和SNPs的结果没有任何一致性。两种数据在3个类群中共享的窗口数目分别为2、1、10,只有10是显著高于随机,窗口内没有任何候选基因。作者还分析了驯化过程中的基因获得和丢失,列举了一些功能基因。
MEIs for Specific TE Families
作者单独进行了call MEIs并将其分配到了特定家族,以比较不同TE家族和类型的群体动态。作者分析了不同类型TE的频谱,估计了适应度效应分布(DFE)。为探究不同TE家族之间群体动态的差异,作者比较了不同TE家族的插入时间,结果似乎不能解释SINE和Mariner的频谱。作者推测可能是选择造成的并进行了验证,结果支持该结论。
![](https://img.haomeiwen.com/i23569980/2e3f2e8fee9ee5ff.png)
四、研究不足和提出的问题
优点:
文章选取了一个研究热点方向并在水稻这一重要的粮食作物中进行了探究,随着测序技术的发展以及相关研究的发布,人们越来越关注基因组中的结构变异和其表型效应,在驯化和适应性中的作用。充分利用已发表的数据,文章通篇没有生产数据,通过已发表的大量数据为自己的科学问题提供服务。验证了SV有助于寻找驯化基因,包括鉴定到的结构变异数据集,可能有助于生产实践中的应用。
缺点:
文章对野生稻的群体结构没有清晰地认识,japonica和indica两个亚种可能起源于不同的野生稻类群,但文章并未对此有一个详细区分,如果indica并非起源于中国野生稻那一支系,选择信号的分析可能会有偏差。在SV的分析中,许多只是单纯地描述,缺少深入探讨现象形成可能的原因。