2022《Nature》tomato 图形泛基因组捕获缺失的遗
导读
全基因组关联研究中遗传力缺失是复杂生物性状遗传分析面临的一个主要问题。解决这个问题的办法是找出所有的因果遗传变异,并衡量每个变异的独立贡献。
此研究报告了一个由838个基因组构建的番茄图形泛基因组,包含精确定位的1900多万个变异,其中包括32个新的参考水平基因组组装。该图形泛基因组用于20323个基因表达和代谢物性状的全基因组关联研究分析和遗传力估计。平均遗传力为0.41,使用单一线性参考基因组时遗传力为0.33。这24%的遗传力增加很大程度上是由于使用图形泛基因组识别到的新的因果结构变异所揭示的不完全连锁不平衡。
此外,通过揭示等位基因和基因座异质性,结构变异提高了识别潜在农业重要性状的遗传因子的能力,例如,识别到了两个可能影响可溶性固形物含量的新基因。这些新发现的结构变异将通过标记辅助选择和基因组选择促进番茄的遗传改良。此研究推进了对复杂性状遗传力的理解,并证明了图形泛基因组在作物育种中的力量。
论文ID
原名:Graph pangenome captures missing heritability and empowers tomato breeding
译名:图形泛基因组捕获缺失的遗传力并增强番茄育种能力
期刊:Nature
IF:69.504
发表时间:2022年6月
通讯作者:黄三文
通讯作者单位:中国农业科学院深圳农业基因组研究所
DOI号:10.1038/s41586-022-04808-9
实验设计
结果
1、组装图形泛基因组
作为一个图形泛基因组的主干,一个高精度和无间隙的线性参考基因组是至关重要的。为此,此研究使用HiFi长reads和Hi-C远距scaffolding组装了一个最先进的主干基因组 (tomato cv. Heinz 1706, 构建了SL5.0)(扩展数据图2a)。SL5.0的contig N50大小为41.7Mb,与之前构建的SL4.0相比增加了大约7倍。此外,SL5.0比SL4.0多包含19.3Mb的序列(801.8Mb和782.5Mb),43个contigs(99.8%的组装)被锚定在12条染色体上 (图1a和扩展数据图2b)。在SL5.0的伪染色体中只剩下31个gaps,大大少于SL4.0(259个gaps)。Gaps主要存在于高度复杂的区域,包括亚端粒、着丝粒和rDNA重复序列。细菌人工染色体克隆序列和k-mer分析都支持SL5.0的高质量(补充表1)。此研究对SL5.0 (ITAG5.0)进行了注释,预测到了36648个蛋白编码基因。
此研究还组装了其他31个可以代表红果番茄分支多样性的样本的参考水平基因组,包括15份大果番茄(S. lycopersicum,BIG),8份樱桃番茄(S. lycopersicum var. cerasiforme, CER)和8份S. pimpinellifolium(PIM,被认为是现代栽培番茄的祖先)(补充表2和补充图1)。这31份组装的contig N50大小从13.7Mb到52.2Mb不等,平均28.6Mb,比之前发布的番茄泛基因组组装MAS2.0中的任何组装都大(图1b及补充表3)。此研究注释了45个组装的重复序列并预测了蛋白编码基因,其中31个来自此研究,13个来自MAS2.0(8个BIG, 3个CER和2个PIM),1个来自另一项研究的PIM 。重复序列含量为60.7%到64.0%,平均为62.1%(补充表4)。预测的蛋白编码基因数在33,863到37,237个之间,平均35298个(补充表5)。通过BUSCO分析评估了这些组装的完整性,结果显示平均96.2%的茄目单拷贝基因被完全组装(扩展数据图2c)。总之,这些高质量的基因组组装代表了构建一个番茄图形泛基因组所需的一个稳健的来源,以促进变异检测和基因组比较。
以 SL5.0 为主干,从 31 份样本的 HiFi reads 中识别单核苷酸多态性 (single-nucleotide polymorphisms, SNPs) 和小的插入和缺失 (insertions and deletions,Indels, 1-50bp),从所有131份样本(100份来自先前研究,31份来自本研究)的长reads中识别SVs,,并将其整合到一个变异图谱中。在构建图形泛基因组时,没有特别考虑复杂SVs(补充注4)。得到的番茄图形泛基因组 (TGG1.0)大小为1,007,562,373bp,其中约 206Mb 在SL5.0中缺失。此研究将所有预测的蛋白质编码基因比对到使用所有组装生成的图形基因组中,得到了一个包含 51,155 个基因的番茄图形泛基因组注释 (TGA1.0) ,其中14,507个基因来自非参考基因组。此前的重测序项目为706份测序深度大于6的番茄种质积累了 7.8Tb 的 Illumina 短 reads 数据。通过将这些短reads比对到TGG1.0,此研究确定了TGG1.0中不存在的额外SNPs和Indels。将这些变异与TGG1.0的变异合并后,此研究得到了一个包含 17,898,731个 SNPs、1,499,161个 Indels 和195,957个 SVs 的数据集。将更新的遗传变异数据集与SL5.0主干基因组进行整合,生成了一个新的变异图谱,此研究将其命名为TGG1.1。
模拟研究表明,图形泛基因组在检测所有类型的遗传变异 (SNPs, Indels 和 SVs) 方面优于线性基因组(补充表6),这与最近一项关于人类变异图谱的研究一致。此研究分别比较了来自图形泛基因组和线性基因组的 SNPs、Indels 和 SVs 性能指标。从基因型的原始输出中,利用10×测序数据,此研究得到了图形泛基因组中 SNPs、Indels 和 SVs 的 F1 评分(精度和recall率的调和平均数)分别为0.966、0.941和0.840,显著优于线性基因组的F1评分(0.931、0.897和0.474;Wilcoxon秩和检验,P=6.30×10-13,P=5.04×10-14, P=1.69×10-17(图1c)。考虑到两个数据集都使用了同一个变异鉴定软件 DeepVariant,图形泛基因组更高的精度和 recall 率可能是由于该软件在使用图形基因组比对短 reads 时相比使用线性基因组时精度更高 (图1d)。
接下来,此研究对 332 份番茄种质进行了基因分型,将它们的 Illumina 序列比对到 TGG1.1 上,得到了一个名为 TGG1.1-332 的 callset ,包含6,971,059个 SNPs,657,549个 Indels 和54,838个 SVs。此研究还将这些序列与线性基因组 SL5.0 进行了比对,得到了一个名为 SL5.0-332 的 callset,其中包含7317,844个SNPs,447,098个Indels和11,397个SVs。此研究发现,与图形泛基因组中唯一识别的SNPs相比,线性参考中唯一识别的SNPs在物理上更接近其邻近的SVs(图1e),这与后一个数据集中SVs周围具有较低水平的错误reads比对率相一致(扩展数据图3)。此外,TGG1.1 包含了在 DNA 芯片中验证的 7720 个 SNPs 中的 7197 个 (93.2%),而以 SL5.0 为参考的只检测出 6812 个 (88.2%)。值得注意的是,线性基因组对 SV 的检出率仅为图形泛基因组的 20%,说明使用图形泛基因组检测 SVs 效果更好。总之,TGG1.1 是迄今为止最全面、最准确的番茄基因组变异图谱之一。
图1|番茄基因组和图形泛基因组1. 组装
(1)首先获得了一个高质量的参考基因组 Heinz 1706, Build SL5.0;
(2)组装了 31 个 代表性番茄 including 15 big-fruited, eight cherry and eight accessions from S. pimpinellifolium (progenitor of cultivated tomatoes)
Taken together, these high-quality genome assemblies represent a robust resource to facilitate variant detection and genomic comparison for constructing a tomato graph pangenome.2. call variant
(1)With SL5.0 serving as the backbone, SNPs and indels(1–50 bp)31 accessions with HiFi reads,
(2)SVs (>50 bp) from all 131 accessions with long reads (a total of 100 accessions from a previous study and 31 accessions from this study), 只保留了 INS 和 DEL.3. TGG1.0
(1)The resulting tomato graph pangenome (TGG1.0) spans 1,007,562,373 bp,including approximately 206 Mb absent from SL5.0.
(2)We mapped all predicted protein-coding genes to a graph generated from all assemblies, resulting in a tomato graph
annotation (TGA1.0) with 51,155 genes, of which 14,507 are from the non-reference genomes.4. 使用 TGG1.0 作为 reference , 对 706 份材料 call SNP 和 indels
706 tomato accessions withf Illumina short-read data. By mapping these short reads to TGG1.0, we identified additional SNPs and indels that were not present in TGG1.0.5. TGG1.0
Integration of this updated genetic variant dataset and the SL5.0 backbone genome resulted in the generation of a new variation graph, which we designate TGG1.1.Simulation studies indicate that the graph pangenome outperforms the linear genome at calling all types of genetic variants (SNPs, indels and SVs) (Supplementary Table 6), consistent with a recent study on a human variation graph.
a 番茄参考基因组SL4.0(蓝色)和SL5.0(黄色)之间的共线性。灰色表示共线区块。Gaps的位置在染色体上以黑色矩形标记,着丝粒在染色体上以橙色矩形标记。
b 所有组装的Contig Nx大小。SL4.0和SL5.0用箭头标出。线型代表不同的测序平台。CLR,PacBio连续长reads;HiFi,高保真长reads;ONT,Oxford Nanopore长reads。括号中的数字代表组装的数量。
c 从图形泛基因组和线性基因组中取出的31个样本的不同深度和遗传变异的HiFi reads作为模拟测序序列对各个变异进行F1评分(精度和recall率的调和平均数)。
d 使用2,000,000个模拟reads来评估图形(Giraffe)和线性(BWA-MEM)比对软件的假阳性(x轴)和真阳性(y轴)率。每个点的大小表示比对reads的数量,映射质量为60。
e SVs断点上下游1kb范围内SL5.0-332和TGG1.1-332的独有SNP密度图。
2、捕获缺失的遗传力
为了测试图形泛基因组在捕获缺失遗传力的能力,此研究利用 LDAK 方法对 332 份番茄材料的 20323 个分子性状进行了遗传变异分析,其中包括19353个表达性状和970个代谢物性状。
此研究首先单独分析了每一类遗传变异(即只有SNPs,只有Indels或只有SVs)。对于所有三个类别,使用图形泛基因组估计的平均遗传力都高于使用线性参考基因组估计的平均遗传力(图2a和补充表7)。更高的SNP遗传力(0.29 vs. 0.28;Wilcoxon秩和检验, P =7.24×10-3;扩展数据图4b)表明TGG1.1-332相比SL5.0-332包含的SNPs更少。当该分析局限于6375个独立性状时,结果类似(性状之间的皮尔逊相关系数的平方(r2)<0.20)(扩展数据图4a)。接下来,此研究联合分析了遗传变异的类别。估计遗传力随着模型中变异类别的增加而增加(图2a)。当在一个复合模型中联合分析所有三类变异时,图形泛基因组的平均遗传力为0.41,比线性基因组的平均遗传力高24%(0.33;Wilcoxon秩和检验,P=1.23×10-217)。此研究使用复合模型估计了TGG1.1-332中由SNPs、Indels和SVs带来的平均遗传力,发现SVs贡献了最大的总体遗传力比例(0.27,65.9%)(扩展数据图4c)。此外,SVs对大约一半的分子性状的遗传力贡献都最大(10297/20323,50.7%)(图2b)。
这些数据表明,通过图形泛基因组捕获的缺失遗传力很大程度上是由于纳入了更多被识别到的SVs。
分子标记与因果变异之间的不完全连锁导致了对遗传力的低估。而接近基因的SVs可能是因果变异,因为它们可能导致基因表达失调。此研究观察到大量的SVs和相邻的 (两侧各50kb) SNPs 和 Indels (分别为61.2%和45.5%) 处于强连锁状态 (R2>0.7) , 但只有很小的部分 (分别为3.2%和0.6%) 处于完全连锁 (R2=1)(图2c) ,这表明标记和因果变异之间的不完全连锁在此研究的群体中是常见的。此研究的模拟研究表明,这些被包含的因果变异可以弥补一些缺失遗传力(补充图2)。这可以部分地解释,与只考虑SNPs和Indels的模型相比,当SVs被纳入模型时,平均遗传力从0.37增加到0.41的原因(图2a)。
作为一个例子,此研究研究了 Solyc03G002957,它编码了一个与磷酸肌醇相互作用的蛋白质。为了评估顺式变异对基因表达的影响,此研究将遗传变异分为6类,分别是来自线性基因组和图形泛基因组callset中SNPs、Indels和SVs的顺式变异(定义为基因两侧各50 kb内)和反式变异。我们发现,从SL5.0-332估算的总遗传力为0.54 (s.d.=0.32)。从TGG1.1-332估算的总遗传力为0.75 (s.d.=0.51),其中顺式SVs和反式SVs共同贡献了最大的比例,分别为0.41 (s.d.=0.34)和0.28 (s.d.=0.10)(图2d)。这表明,该基因周围的SVs(其中大多数只能用基于图形基因组的方法识别)比其他变异类型更有可能是因果变异,并对总体遗传力产生了大部分贡献 。当此研究进行单变量关联研究时,发现Solyc03G002957的表达可能受到一个SV的影响,该SV是位于3号染色体上一个峰值的主要变异(sv3_62128422,一个2628bp的缺失导致转录本末端被截断)(图2e和扩展数据图5和6)。该SV仅在TGG1.1-322中存在,同时解释了大约0.45(s.d.=0.63)的遗传力。然而,一个显著的SNP (SNP3_62204487,位于该基因上游约57.6 kb)与SV表现出适度的连锁 (R2=0.66)(图2e),并同时在SL5.0-332和TGG1.1-332中解释了0.34(s.d=0.48)的遗传力。然而,考虑到SNP3_62204487与目标基因相距8个基因,这个SNP的统计显著性可能是错误的结果。这些结果表明,通过包含可能的因果SVs来解决不完全的连锁,图形泛基因组有可能捕获缺失的遗传力。
2 | 遗传变异对遗传力的贡献a SL5.0-332和TGG1.1-332 不同遗传变异组合的遗传力比较 (h2)。SNP + Indel和SNP + Indel + SV是指包含两类或三类变异的复合模型。遗传力使用与每个类别对应的随机效应估计。P值使用两侧Wilcoxon秩和检验计算。垂直的虚线表示平均值。
b 由SNPs、Indels 和 SVs 贡献的性状遗传力比例。采用SNP + Indel + SV复合模型(共666个性状,h2=0的估计值未显示)估算遗传力。括号中的数字表示每组性状的数量。
c 在50 kb范围内,SVs 与 SNPs/Indels 之间的连锁 (R2)分布。对于每个SV,记录两侧相邻SNPs/Indels在50 kb内的最大R2。虚线表示R2=0.70。
d 来自于SL5.0-332和TGG1.1-332的顺式和反式遗传变异贡献的Solyc03G002957基因表达的遗传力。通过将所有遗传变异划分为6类(顺式SNPs、顺式Indels、顺式SVs、反式SNPs、反式Indels和反式SVs)来估计遗传力。
e Solyc03G002957 表达的曼哈顿图(上)。利用MLM法估算各变异的P值。n=332个样本。中间是显著变异的基因区域放大图,点的颜色表示主要变异 sv3_62128422 的连锁(R2)大小。圆圈代表SNPs,三角形代表SVs。放大区域标注的基因被显示出来。下图是放大区域的连锁热图。水平虚线表示Bonferroni阈值(log10[0.05/6,423,741]=8.11)。
估计遗传力与 GWAS 显著位点解释的遗传力之间仍存在显著差异。其中一个重要的原因是等位基因异质性(即在同一位点的多个潜在遗传变异导致相同的表型),这是在复杂性状中普遍存在的现象,往往会削弱GWAS的效果。为了评估等位基因异质性对番茄GWAS的潜在影响,此研究分析了顺式区(每侧基因50 kb以内)的变异对其相应基因表达的影响(19353个基因)。利用 单基因座混合线性模型 (single-locus mixed linear model, MLM) 对1179个基因进行了顺式表达的数量性状位点(eQTLs)检测。虽然这些基因表达的平均估计遗传力为0.62,但由主要显著变异解释的平均遗传力仅为0.27(图3a)。因此,如果仅考虑在eQTLs中的显著变异时,eQTLs附近遗传变异的遗传力可能会被忽略。而当考虑所有在eQTLs的顺式区域包含的遗传变异时(在主导变异两侧各50 kb以内),平均估计遗传力增加到0.37,获得额外的0.10个遗传力(图3a)。此外,仍有18,174个(93.9%)表达基因中的一些具有较大的顺式遗传力,但没有显著的顺式eQTLs (扩展数据图7a)。此研究清楚地表明,等位基因异质性导致了GWAS中遗传力的缺失。多位点模型具有解决等位基因异质性的潜力,但只能同时分析少量变异,这限制了其在GWAS中的应用。因此,为了确定图形泛基因组是否能够通过解决等位基因异质性来捕获缺失的遗传力,此研究关注了基因近端区域(上游和下游50 kb)内的SVs和基因表达之间的关联,这是基于SVs可能是因果原因的假设。利用最小绝对收缩和选择算子(LASSO)的多位点回归模型,此研究发现在19353个基因中,有1787个基因的表达受到至少两个显著相关的SVs的影响(假阳性率=7.53×10-4;排列检验)。与MLM相比,LASSO特异的检测到1249个顺式SV eQTLs,这表明LASSO具有更强的解析等位基因异质性的能力(图3b)。1249个顺式eQTLs的遗传力范围为0.00 ~ 0.59,平均为0.10。相比之下,此研究使用SL5.0-332 callset只识别到了169个顺式SVs QTLs,其中有两个显著的SVs,这表明需要包含更全面的遗传变异来解决基因异质性和捕获GWAS的遗传力缺失。此外,复杂的SVs,如重复、串联重复和拷贝数变异(CNVs),其中大多数可能是多等位基因SVs,此研究无法完全解析这些变异。因此,等位基因异质性可能比这里估计的更为普遍。为了验证,此研究解析了基因Solyc03G001472,它编码了一个功能未知的蛋白质。顺式遗传力为0.24 (s.d=0.18),占总遗传力的52%。其中有646个SNPs,46个Indels,3个SVs在基因近端,但当应用MLM时,没有一个与表达量显著相关。考虑到三个SVs解释了大约一半的顺式遗传力(0.12,s.d.=0.11),此研究对三个SVs应用LASSO模型,发现其中两个SVs与基因表达显著相关,一个较小的等位基因频率(MAF)为0.017 (sv3_42936717),另一个MAF为0.032 (sv3_42954617)(图3c)。不同SV基因型的表达水平显示,两个SV都与Solyc03G001472的表达相关(扩展数据图7b)。总的来说,此研究表明,通过图形泛基因组识别的SVs可以部分的解决等位基因异质性。
基因座异质性,即复杂性状由多个基因的等位变异控制的现象,也可能降低GWAS的统计能力。理论上,LASSO模型可以用来解决基因座异质性(以及等位基因异质性),但在实践中,这是不可行的,因为全基因组标记数量过多。另一种方法是关注可能参与调节特定性状的基因网络。‘全基因组模型’假设所有表达的基因都可能参与复杂性状的调控;然而,在有限的样本量中,只能检测到影响较大的基因。对于基因表达,此研究使用加权相关网络分析(WGCNA)得到了一个由99个模块组成的共表达网络,包括17592个基因(Supplementary Table 8)。每个模块平均包含177.7个基因,仅占19353个表达基因的0.92%。值得注意的是,此研究发现模块中基因近端区域内的变异平均贡献0.22的基因表达遗传力,即48.9%的总估计遗传力(0.45)(扩展数据图7c)。这表明,同一模块中的基因,尽管数量较少,但可能会对其相应模块的基因表达产生不成比例的巨大影响。因此,为了解决复杂性状的基因座异质性问题,可以在共表达网络中将搜索范围缩小到某个模块内,然后将搜索重点放在影响相应基因表达的SVs上。为了评估该策略的有效性,此研究集中研究了类黄酮含量(包括38种检测到的代谢物),这是番茄果实品质的一个重要性状,遗传力范围为0.07-1.00(图3d和补充表9)。共表达网络分析显示,一个包含81个基因的模块与类黄酮通路相关(以下简称类黄酮模块)(扩展数据图8)。TGG1.1-332的全基因组SVs对38种代谢产物含量的遗传力平均贡献0.21(范围0.00-0.58)。此研究发现位于类黄酮模块基因近端区域的SVs贡献了0.14的遗传力(图3d),说明这81个基因代表了与类黄酮含量有关的大部分遗传调控。利用LASSO,此研究鉴定了81个基因中具有顺式SV eQTLs的17个基因 (图3d和Supplementary Table 10)。17个基因周围的171个SVs(顺式SV集)构成了评价基因座异质性对类黄酮含量影响的候选数据集。此研究使用LASSO对顺式SV集合和38个代谢物进行关联分析,确定了与31个代谢物相关的9个基因周围的16个SV(补充表11)。此外,31个代谢物中有17个与多个基因相关(图3d),这表明基因座异质性影响了类黄酮的这一复杂网络。影响31个类黄酮的9个基因由3个具有转录因子活性的基因(包括之前报道的SlMYB12基因)和6个酶编码基因组成。特别是,GO分析显示,在类黄酮生物合成过程中有两个转录因子和两个酶参与(补充表12)。该例子展示了基于图形泛基因组的方法如何通过解决基因座异质性来恢复缺失的遗传力。
图3 | 解析等位基因和基因座异质性a 由QTLs中主导变异体、局部变异 (主导变异体两侧各50 kb以内)和所有遗传变异解释的遗传力直方图(h2)。垂直虚线附近的数字表示不同变异类型贡献的平均h2值。不同的变异类型用不用颜色表示。
b 基因表达性状的等位基因异质性。
c Solyc03G001472基因的顺式区域(上下游各50 kb以内)曼哈顿图。灰色圆圈代表SNPs,红色三角形代表SVs。虚线表示显著性阈值。
d 黄酮类化合物分析概览。上部, 38个类黄酮代谢物的h2(补充表14),使用划分为6个不同类别的TGG1.1-332的所有遗传变异进行复合模型估计。‘module’是指位于类黄酮模块中基因上游或下游50 kb以内的变异,其余的变异为‘non-module’。条形图显示了每个类别对h2的贡献,用不同的颜色表示。具有多个SV QTL的代谢物呈绿色,如上部所示。MLM和LASSO以及LASSO单独鉴定出的代谢物的SVs分别为红色和青色。MLM检测到的所有SVs都可以被LASSO检测到。下面是使用LASSO鉴定的17个基因表达的显著顺式SV eQTLs。与黄酮类化合物(mQTLs)相关的16个SVs用橙色三角形表示。
3、图形泛基因组可用于番茄育种
广泛的基因组变异的最佳利用有望促进作物改良的模式转变。在GWAS中发现的重要遗传变异是标记辅助选择(MAS)育种的重要候选标记。利用图形泛基因组在番茄育种中的附加价值,以番茄果实可溶性固形物含量(SSC)为育种指标进行概念论证研究。
此前有研究报道了位于第9号染色体上的Lin5和第11号染色体上的SSC11.1两个SSC潜在QTLs。为了检测可能导致基因座异质性的变异,此研究使用WGCNA同时分析SSC和基因表达,建立了一个通用流程,并确定了一个包含103个可能与SSC相关的基因的模块。这些基因近端区域的SVs对SSC遗传力的贡献为0.33 (s.d.=0.21),占总遗传力的52.9% (0.62,s.d.=0.68)。利用LASSO,在25个模块基因中发现了顺式SV eQTLs。与相应基因(Solyc01G003449、Solyc02G001638和Solyc04G001842)物理上接近的三个SVs (SV1_85728347、SV2_44168216和SV4_54067283)与SSC显著相关(图4a)。这些基因是有希望剖析SSC遗传结构的候选基因。
此外,此研究发现的显著遗传变异可能是开发新高SSC标记的有价值候选材料。此研究发现三个SVs中的两个SVs (SV2_44168216和SV4_54067283)显著影响其附近基因(Solyc02G001638和Solyc04G001842)的表达(图4b)。Solyc02G001638编码一个PapD样的超家族蛋白,此前的研究发现,编码海藻糖-磷酸磷酸酶的Solyc04G001842的表达与d-果糖和d-葡萄糖的含量呈负相关。考虑到SV1_85728347与Solyc01G003449的表达没有显著关联(图4b),此研究不在MAS中考虑该变异。研究发现,在SV2_44168216和SV4_54067283两个有利等位基因的基础上选择高SSC的材料比仅在一个SV上选择更有效(图4c)。这些结果表明,利用 SVs 设计标记分析是有价值的,突出了图形泛基因组在未来植物育种中的优势。
多个小效应位点控制的复杂性状限制了MAS在作物改良中的应用。基因组选择提供了一种利用小效应QTLs的替代方法。基因组选择(GS)是指根据所有标记的基因组估计值来选择优良株系,而不考虑它们的影响程度。使用191种SVs遗传力大于SNPs遗传力(0.60 vs 0.55;Wilcoxon秩和检验,P=0.032)的代谢物进行GS,基于SVs的GS准确性(真实表型与基因组估计值之间的r2)高于SNPs (0.11 vs 0.10;Wilcoxon秩和检验,P=3.30×10-32)(图4d)。这表明,利用SVs捕获缺失遗传力可以提高GS的准确性。
接下来,此研究将GS应用于番茄风味育种。33种风味相关代谢物的遗传力估计范围为0.21 ~ 1.00(补充表7)。使用SNPs、Indels和SVs的最佳线性无偏预测的预测精度分别为0.00 ~ 0.23、0.00 ~ 0.24和0.02 ~ 0.25,其中SVs对33种代谢物中的22种的预测精度最高(图4e)。为了促进番茄育种的GS,此研究选择了20955个候选SVs,包括11488个插入、9403个缺失和64个倒位,用于DNA捕获阵列的设计。此研究预计,未来的研究将验证SV序列在番茄育种中的有效性。这些结果也促进了基于SV的GS在其他物种中的发展。
从图形泛基因组中识别出的遗传变异将有助于转基因或基于基因组编辑的育种。为了改进基因组编辑的引物设计,此研究为所有预测基因设计了带有Cas9原空间相邻基序的sgRNA引物,并在网络数据库(http://solomics.agis.org.cn/tomato)中发布。该数据库还提供了用以全面搜索SNPs,Indels和SVs目录,并设计竞争性等位基因特异性PCR (KASP)标记的工具,这将有利于番茄研究和育种。
图4|图形泛基因组支持MAS和基因组选择a 基于LASSO的顺式SV集合的SSC关联研究。具有显著相关SVs的基因被指出(橙色三角形)。
b SVs影响其附近基因的表达。P 值来源于双侧Wilcoxon秩和检验。
c 利用SVs筛选高SSC品种。对于 b 和 c, n表示每组的样本量。
d 基于SNPs和SVs的GS准确性的比较。颜色刻度表示由SNPs贡献的估计遗传力。
e 使用不同类型遗传变异的GS准确性的比较。n = 33个代谢性状被标出。‘SV array’ 表示用于DNA捕获阵列的SV。
对于b、c 和 e 箱线图显示了中值(中线)、平均值(十字)、上四分位数和下四分位数(箱上下沿)、1.5倍四分位数间范围 (须)和异常值(实心点)。个别数据点用圆圈表示。
讨论
这里展示的最新的图形泛基因组包含了来自广泛的番茄种质的遗传变异。非参考样本的生物多样性的纳入将为下一代基因组研究和基因组辅助育种提供重要平台。特别是,利用图形泛基因组来源的SVs揭示了不完全连锁、等位基因异质性和基因座异质性在捕获缺失遗传力方面的重要性。
在这里,此研究使用基于reads比对和基于装配的方法,使用基于图的短reads方法检测群体中的SVs和基因型SVs。此研究的一个缺陷是复杂的SVs,例如片段重复,串联重复和CNVs,在此研究目前的流程中没有专门考虑。另一个缺陷是只有图中存在的SVs才能进行基因分型,SV基因分型的准确性仍然低于SNPs和Indels。基于高质量基因组组装的方法是识别高度复杂SVs的优越方法。此研究相信,这些问题将在未来通过开发工具来解决,这些工具可以生成统一的图形泛基因组和注释,并通过更广泛的群体水平参考级基因组组装来加强。目前的一些统计工具,考虑到了等位基因异质性,但这些工具往往不能检测没有高边际P值的因果变异。通过合并SVs,这些工具的功能可能会得到改进。此外,此研究还证明了基因座异质性的重要性。然而,此研究认识到,使用LASSO的解决方案并不是最优的,因为它还无法在算力上实现一次性考虑所有的遗传标记。理想情况下,将开发多位点工具来考虑更多的标记。此外,当对复杂SVs进行基因分型变得可行时,有必要开发新的工具,例如,允许多等位变异,并可以使用这些变异来捕获额外的缺失遗传力,并提高MAS和GS的准确性。