比较基因组

文献解读:同源四倍体马铃薯单倍型基因组

2023-06-25  本文已影响0人  我与生信

文献

2022

Molecular Plant

Genome architecture and tetrasomic inheritance of autotetraploid potato

研究背景

栽培马铃薯是一种世界范围的主粮作物。

同源四倍体栽培马铃薯表现出高度杂合的基因组,并且主要是无性繁殖的,因此育种效率普遍更低。 

自从单倍体马铃薯的第一个参考基因组(DM1-3516 R44)与2011年发布,已经陆续报道了各种野生和栽培二倍体马铃薯的参考基因组。然而,解决同源四倍体马铃薯基因组中的四个单倍型仍然是一个挑战。 

同源多倍体基因组从头组装的最大障碍是区分和分离非常相似的单倍型,这些单倍型通常被组装成高度片段化的序列。

亮点

作者结合了HiFi数据、HiC数据和单倍体参考基因组,成功组装了同源四倍体马铃薯四个单倍型。

结论1 同源四倍体单倍型分型的基因组组装

作者选择同源四倍体马铃薯品种C88进行测序和基因组组装,C88是一个高产、抗晚疫病的商品马铃薯品种。它是以印度马铃薯I-1085为母本,以S.tuberosum组的Andigena为父本杂交而成的。在20世纪90年代由国际马铃薯中心和中国云南师范大学开发后,C88已成为中国西南地区的首选品种,并迅速被邻近省份和其他东南亚国家采用。

结论2 C88基因组的初步组装和分型 

Fig S1

根据K-mer调查和流式分析,估计C88基因组大小约为3Gb (Fig S1)。

Fig 1a

利用33×的HiFi数据,使用hifiasm软件进行组装,得到了3.08Gb的基因组草图(C88.v0.1, Fig 1a)。接下来,我们尝试在Hi-C数据和单倍型参考基因组的帮助下,将unitig 分配到不同的单倍型,这种方法已在栽培苜蓿和甘蔗的同源四倍体基因组组装中成功应用,然而结果不太理想。

Fig S2

将HiFi读数映射到这些unitigs上,然后在C88.v0.1中鉴定出2.61 Gb的单倍型基因组,其中325.68 Mb的diplotigs (2×)和triplotigs (3×)显示出显着的双倍和三倍体读数覆盖率(Fig S2a)。作者之前开发了一套流程,可以从二倍体马铃薯基因组中鉴定单倍型。为了使用四倍体遗传图谱对C88进行单倍体分型,作者将1034个S1子代的重测序读数比对到C88.v0.1上(Fig S2b),并计算子代中每个单倍型的遗传剂量(0,1,2,3,4)。通过剂量分数的分组,约2.08 Gb的单倍型构建了48组,代表12条染色体的4个单倍型。基于剂量分数,2x,3x区域被解压缩为两个或三个相同的拷贝,代表737.09 Mb的单体肽序列,并根据它们与分组单体肽的连锁关系被分成48组。

结论3 C88基因组的遗传相位辅助多倍体图谱分组

Fig 1b

根据分组的unitigs, 89.7%的不连续HiFi reads(未被其他更长reads覆盖的reads)被分配到48个单倍体(Fig 1b),并且相位信息输入到hifiasm的多倍体图谱分组中。

在之前的hifiasm图谱分组中,使用三倍体信息来改善二倍体基因组中的杂合区域组装。在本研究中,作者首次将此应用扩展到自四倍体基因组,通过将经过预分相的HiFi reads输入到hifiasm中。在此次hifiasm运行后,获得了四组contigs,分别为总大小为954.57 Mb、918.61 Mb、900.16 Mb和894.06 Mb的contigs(以下简称为H1、H2、H3和H4)。对于每组,使用Hi-C数据进行聚类和排序,生成了12条染色体。

在去除质粒和冗余序列后,获得了单倍型分型的C88参考记忆怒斩(C88.v1),总大小为3.15 Gb,contig N50长度为18.78 Mb,其中有3.03 Gb的序列锚定在48条染色体上,共检测到44个端粒(Fig 1b)。

结论4 单倍型分型基因组的评估

Fig S7

Fig S8

C88.v1的单倍型完整性和准确性通过六个独立分析进行评估:

(1)k-mer分布表明在C88.v1中解决了那些未成功组装的的序列,单倍型解析的特性也得到了HiFi reads均匀分布的映射覆盖的支持(Fig S7)。

(2)为了评估相位准确性,我们使用ONT UL reads基于Whatshap polyphase构建了分型区块。在66,370个分型区块中,包含3,400,173个SNPs,分型区块与四个组装的单倍型之间的一致性分别为97.86%(H1),98.58%(H2),97.96%(H3)和98.58%(H4),表明我们的相位化组装与从UL reads生成的本地相位具有较高的一致性。

(3)为了验证结构的正确性,我们检测了C88.v1与单倍体马铃薯参考基因组DMv6.1之间长度从50 kb到200 kb的结构变异,并手动检查了SV区域的UL reads映射。仅使用映射长度>100 kb的UL reads进行分析。在179个具有超过三个UL reads覆盖的SV中,97.7%的SV由UL reads跨越断点。

(4)使用Illumina数据,我们确定最终组装具有非常高的碱基准确性(质量值QV 46.6)和完整性(99.05%)。

(5)基于BUSCO对组装进行的分析确定每个单倍型中超过97%的完整基因,并且重复基因的比例小于3%,表明单倍型的完整性。

(6)scaffolds的遗传连锁强度和Hi-C矩阵也支持分型组装的质量(Fig S8)。

总体而言,C88的单倍型组装相对完整,包含同型纯合区域,其中包括四套单倍体基因组基因,并且在SNP相位和大规模结构上显示出较高的准确性。

基于239,331个PacBio全长转录本和来自20个组织的162 Gb Illumina RNA测序数据,在C88基因组中预测到150,853个蛋白编码基因和217,651个可变剪接。

对基因注释的BUSCO评估显示每个单倍型中93.8%至95.3%的基因是完整的,而在合并集中为99.2%。

结论5 五马铃薯同源四倍体基因组的单倍型间多样性

结论5.1 序列差异:SNP、InDels和SV

Fig 2

为了对C88基因组内部基因组多样性进行全基因组评估,我们选择每个染色体上最长的单倍型来构建C88的伪单倍体基因组。

根据分型的的HiFi reads比对,总共检测到11,964,627个SNPs和1,056,892个InDels,分布在四个单倍型的12条染色体上,大约占伪单倍体基因组的1.86%(Fig 2a)。主成分分析表明,在2、4、9和11号染色体的单倍型之间存在相对均匀的距离,而1、3、5、6、7、8、10和12号染色体的单倍型则聚集成两个或三个群组。单倍型之间的局部差异水平也有所变化,在某些区域中具有显著减少的变异。

以11号染色体为例,尽管根据主成分分析四个单倍型分散在不同位置,但chr11_1与chr11_4在17-38 Mb的区域非常相似,而chr11_2和chr11_3在19-33 Mb的区域显示高度序列相似性。此外,chr10_2、chr10_3和chr10_4共享37.2 Mb的单倍型序列,在组装过程中形成了三倍体的折叠区域,但它们在染色体10的两个近端端粒区域具有7.58个SNP/kb的多样性水平。

作者还检测到11,097个具有存在/缺失变异(PAV)的基因和50,360个单倍型之间的结构变异,包括431个大型SVs(>100 kb),影响了902.76 Mb的序列。在7号染色体的一个900 kb的同源区域上获得了放大视图,以展示四个单倍型之间的广泛差异(Fig 2b)。

结论5.2 近着丝粒区域和着丝粒区域的可变重复序列

将HiFi reads映射到伪单倍体基因组并在四个单倍型之间进行整合性分析时,一些区域几乎没有被同源单倍型覆盖。这些区域的长度范围从0.8 Mb到37.1 Mb不等。根据它们在染色体上的位置,推断它们可能是着丝粒,并将从单倍体马铃薯基因组中鉴定出的六个着丝粒重复序列(St18、St24、St49、St57、St3-58和St3-238)与这些区域进行了比对。

在24个目标单倍型中,有14个单倍型上观察到了长度可变的重复序列富集,长度范围从19 kb到4.5 Mb不等这提示了着丝粒的位置。在染色体1上,St24在chr1_2、chr1_3和chr1_4上分别形成了99 kb、4.6 kb和4.5 Mb的重复序列富集区,而chr1_1上没有观察到重复序列富集。在染色体5和6上,重复序列富集只在四个单倍型中的一个单倍型上检测到。

为了全面了解48个单倍型上的周着丝粒和着丝粒区域,作者使用StainedGlass对缺乏整合性的区域进行了重新比对,使用1 kb的窗口,并鉴定了单倍型特异性的、兆碱基大小的重复序列富集区。根据高度重复重复序列的富集情况,可以将48个单倍型分为三类,即与同源单倍型共享重复序列的单倍型、携带独特重复序列的单倍型以及没有明显重复序列的单倍型。chr1_1具有两个独特的重复序列富集区,占据了3.69 Mb的区域,而chr1_4、chr1_2和chr1_3共享两个重复序列富集区,长度分别为1.43 Mb、1.61 Mb和1.28 Mb(Fig 2c)。

除了Chr3外,所有染色体上都检测到了单倍型特异性的重复序列富集区。与拟南芥和水稻等基因组中高度相似的着丝粒卫星重复序列不同,同源四倍体马铃薯基因组在同源单倍型上展示出明显不同的周着丝粒和着丝粒特征,表明着丝粒序列的快速进化。

结论5.3 野生马铃薯在C88基因组的渐渗

野生物种的引入被认为增加了栽培作物的杂合性。

通过将20份野生二倍体马铃薯的HiFi数据比对到C88基因组,发现C88单倍型与这些野生基因组之间存在不同程度的相似性。野生马铃薯的reads覆盖了C88基因组的25.52%,覆盖深度超过20×,表明可能存在大量的野生品种引入。在单倍型chr1_1、chr2_1、chr4_1、chr4_3、chr4_4、chr5_2、chr7_2和chr9_3上,可能的引入区域占据了超过50%的单倍型。在35个检测到的类似着丝粒重复序列区域中,有30个区域与可能的引入区域重叠,这表明野生马铃薯序列可能对C88单倍型的独特着丝粒起到了贡献作用。

结论5.4 等位基因的差异表达

Fig S12

为了揭示四个单倍型上同源基因的表达模式,作者在单倍型间的同源区块中鉴定了23,086个四等位基因位点,即每个单倍型拥有一个等位基因,并在20个组织中分析了它们的表达情况。

对于每个组织,根据四个等位基因的相对表达水平,我们将等位基因的表达分类为平衡表达、显性表达和抑制表达(Fig S12a)。平均而言,在一个组织中,49.1%的四等位基因位点显示出四个等位基因之间的差异表达,其中3.4%的位点拥有单个显性表达的等位基因(Fig S12B)。在特定单倍型上并没有明显的偏好表达。

在C88基因组中,我们观察到一个位点上的等位基因在这20个组织中呈现出变化的表达模式。在23,086个位点上的92,344个等位基因中,61.7%(56,942个)在这20个组织中至少表现出两种表达类型,显示了自花四倍体马铃薯基因表达的动态性质。

结论6 同源四倍体马铃薯基因组中的四倍体遗传

Fig 3

在同源四倍体的减数分裂中,存在许多与二倍体和异源多倍体不同的特征,比如多价染色体的配对和偏好配对,以及双减数分裂(DR)。这些特征长期以来一直是四倍体马铃薯和其他多倍体作物的研究重点。在本研究中,我们在C88的自交群体中观察到了这些有价值的事件。

在对1034个S1个体中的9834个基因型化的SNP进行分析,检测到四倍体马铃薯群体中二价配对和多价配对的频率。在二价配对中未观察到与随机配对有偏差,而在四价配对中,在C88自交群体中显示出50%到70%的频率,显著高于外交马铃薯群体中所报道的平均19%。这种差异可能是由于亲本品系的基因组成分的变异。

根据多价配置,DR的发生取决于减数分裂I期同源染色体的DNA交换,而携带相同单倍型的姐妹染色单体在减数分裂II期被拉向同一极。根据DR在端粒和着丝粒之间的染色体位置,其理论频率计算为0至1/6。

为了研究同源四倍体马铃薯中DR的分布情况,我们使用低覆盖度测序数据对C88的自交群体进行了基因分型。尽管在自交群体中检测DR存在局限性,但我们仍然在涉及1034个测序子代中的1021个的12条染色体上观察到1%至4%的DR频率(Fig 3)。DR的分布在同源单倍型上有所变异。对于48个单倍型中的32个,DR频率向染色体的两个端粒递增,并且在近着丝粒区域检测到降低的DR频率,这与基于SNP遗传图谱的先前研究一致。然而,在其余的16个单倍型中,只有一个或没有DR频率峰值在端粒区域。以Chr7为例,chr7_1、chr7_3和chr7_4在近端端粒区域显示出DR频率峰值,最高频率分别为2%、1%和1%,而chr7_2在另一个近端端粒区域显示出2.5%的频率峰值。

结论7 栽培四倍体植物杂种优势起源

Fig 4a-b

多倍体被认为与驯化有着密切的关联,并通过提供更有利的基因和遗传多样性来促进作物的早期驯化,这有利于增强适应性。四倍体马铃薯源自于地方品系的二倍体间的杂交。为了研究多倍体对现代马铃薯品种发展的影响,我们使用C88基因组中父母单倍型的组合模拟了两个二倍体配子的杂交。我们对C88的母本I-1085进行了基因组测序,并使用母本特异的纯合SNP将C88基因组的48条染色体分为两组父母单倍型。

和其他许多无性繁殖作物一样,马铃薯携带着严重的突变负担。在C88基因组中,预测到四个单倍型上有57,641个功能性有害突变,影响了15,942个已注释的基因,将其称为预测的有害等位基因(PDAs)。在总共的23,086个四等位基因座中,33.05%的基因座携带了一个至三个PDAs,保持了PDAs在杂合状态下(Fig 4a)。

与二倍体马铃薯单倍型相比,在那里23.0%的二等位基因座携带杂合PDAs,四倍体马铃薯单倍型通过提供更多的基因副本作为有缺陷等位基因的备份,显示出更高水平的功能互补。就父母单倍型而言,在744个四等位基因座中,两个母本等位基因都是PDAs,而父本单倍型提供了未受影响的等位基因(Fig 4B)。相反情况是,在2366个四等位基因座中,有两个父本PDAs和至少一个未受影响的母本等位基因。因此,在杂交中,配子中的两个无功能等位基因会在四倍体合子中以杂合状态被另一个亲本屏蔽。在自发多倍化中,2N配子上的纯合有害突变会以这种方式被掩盖,从而减少有害突变的积累带来的危害作用。这可能是存在有利的四倍体栽培品种的基础。

Fig S16

在C88基因组中,检测到了1079个父本特有基因和1253个母本特有基因。父母间的杂交赋予四倍体更丰富的遗传多样性,为育种中筛选积累的优良性状提供了可能性。

晚疫病是由普通马铃薯疫霉引起的最严重的病害,已经影响马铃薯产量超过两个世纪。C88对普通马铃薯疫霉在叶片和块茎上具有高度持久的抗性。使用avr蛋白进行浸润实验表明,Avr1和Avr2在C88马铃薯叶片上引发了显著的超敏反应(HR)表型(Fig S16)。

Fig 4c

通过对Solanum demissum的人工合成染色体(BAC)克隆PGEC472P22,作者将R1基因定位到chr5_3上,该克隆携带了R1基因(Fig 4c),并使用具有HR表型的全长转录本将R2基因定位到chr4_3上。R1和R2都来自父本单倍型,表明C88品种的持久抗性主要归因于其父本的背景。

C88主要作为夏季作物在云南省种植,该地区位于北纬20°至30°之间,在夏季有更长的日照时间。在这种条件下,C88的母本提供了更好的本地适应性,而父本的适应性较差。C88在夏季成熟期很晚,生长期为120-150天。对晚熟马铃薯基因StCDF1.1的筛选显示,其中三个等位基因是相同的,而一个等位基因在编码序列中携带了一个3个碱基的缺失,导致一个氨基酸的缺失,位于三个预测的结构域之外,似乎不太可能影响基因功能(Fig 4c)。因此,来自两个父本的StCDF1.1的四个等位基因很可能赋予了C88的晚熟表型,在较长的日照条件下确保其适应亚热带地区。父本单倍型的功能基因的积累使C88成为一个具有良好适应。

上一篇下一篇

猜你喜欢

热点阅读