动植物三代重测序产品全新来袭,群体进化&GWAS一网打尽
结构变异(SVs)是个体间基因变异的及群体分化的重要表现,研究表明,在群体层面上,SVs可能为生物体及其后代提供适应优势,最终使这些变异有机会在正选择压力下适应甚至固定在群体中,从而改变其进化轨迹。因此,对基因组SVs事件的挖掘、分析和选择将是作物育种、牲畜改良、生物多样性潜力及群体适应性进化研究的有效途径。
SVs作为洞察生物多样性的潜在途径的一种方式,由于二代测序读长的限制,一直未被很好的研究。三代测序的长读长、无PCR扩增、无GC偏好性、直接跨越重复及复杂区域的特性完全打破了二代测序对于SVs检测的限制,在SVs检测上有天然优势。全新分析产品在变异检测的基础上,可实现基于SVs的群体进化和全基因组关联分析(GWAS)多样化分析,以全面满足各位科研工作者的研究需求。
一、三代动植物重测序产品分析内容概览
全基因组重测序是动植物群体进化、性状定位、分子育种研究中最为便捷和高效的方法之一,可广泛的应用于变异检测、群体进化、GWAS等动植物研究中。贝瑞基因本次在PacBio变异检测的基础上,推出了基于三代SVs的群体结构和GWAS分析,主要包含群体结构分析,群体多样性分析,选择消除分析及GWAS分析等内容,从结构变异的角度解析群体遗传结构、遗传多样性、性状定位及群体适应性进化等生物学问题。新升级的内容如下:
1. 群体结构分析
群体结构是指由于自然选择、地理隔离、生殖隔离、人工驯化等因素引起群体中基因及基因型分布频率变化,从而形成不同的群体结构分层。一般可基于系统进化树、主成分分析和Structure进行群体结构分析,通过三种方法的结果,互相验证,综合评定群体的整体分群情况。
(1)系统发育进化树
系统进化树是描述群体间进化顺序的分支图或树,通过系统进化树可以得到样品间亲缘关系的远近和分化关系。2020年7月Cell发表的《Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato》研究中[1],作者基于800多份番茄短读长测序数据获得基于SNPs的系统发育树,从具有代表性的群体规模的番茄群体中收集长读长测序数据,根据100份番茄样本的长读长测序数据中SVs存在/缺失构建层次聚类树状图,结果表明,这些材料聚集在它们已知的分类群中,与SNPs分类结果一致。
图1 番茄基于SNPs的系统进化树及基于SVs的层次聚类树基于800多份番茄短读长测数据的SNPs系统发育树,彩色点表示为长读长测序选择的材料(左图);基于100份材料的长读长测序数据的SVs存在/缺失构建的层次聚类树(右图)(图片引自文献[1])(2)主成分分析
主成分分析(PCA),根据样品在不同位点的基因型信息构建它们之间的相关矩阵,按照不同性状特征将个体按主成分进行聚类成不同的亚群。通过主成分分析可以推断群体结构分层及进化关系,也可以与系统进化树、Structure的结果互相验证。2019年9月Nature Plants发表的《The Population Genetics of Structural Variants in Grapevine Domestication》研究中[2],作者对野生(n=12)和栽培(n=50)葡萄样品进行基于SNPs和SVs的主成分分析,结果表明两者一致性较高。
图2 野生和栽培葡萄的主成分分析基于SNPs(顶部)和SVs(底部)的PCA分析(图片引自文献[2])(3)群体遗传结构
群体遗传结构(Structure)指遗传变异在物种或群体中的一种非随机分布。通过群体遗传结构分析可以推断祖先群、个体血缘组成、亲缘关系远近及群体间是否存在基因交流。2020年7月Molecular Biology and Evolution发表的《Evolutionary Genomics of Structural Variation in Asian Rice (Oryza sativa) Domestication》研究中[3],研究者首先利用SNPs数据进行群体结构分析,然后利用SVs数据进行群体结构分析。结果表明,利用SVs的群体遗传结构分析识别了与SNPs相同的主要类群,相关性检验发现两者间的Pearson相关系数 r2=0.853,研究表明SVs可以用于后续的群体遗传分析。
图3 水稻群体遗传结构分析基于SNPs(顶部)和SVs(底部)的群体遗传结构分析。(图片引自文献[3])2. 群体多样性分析
群体多样性可以衡量物种遗传变异水平,对于研究物种遗传多态性的高低,进化历史和系统位置具有重要的科学意义。一般可通过遗传多样性(π)、连锁不平衡(LD)等分析推断群体间的多样性。
2020年7月Molecular Biology and Evolution的水稻研究中[3] ,研究者对野生稻、 籼稻和粳稻的染色体位置进行表征,利用滑动窗口分析SNPs和SVs的遗传多样性(π),并对两者进行比较,发现在所有三个群体中,SVs和SNPs多样性在染色体窗口之间有轻微但显著相关性;计算三个类群的位点频谱(SFS),用SweeD结果来定义中性sSNP,每个SFS 包括同义SNPs(sSNPs)和非同义SNPs(nSNPs)及不同类型的SVs,SFS表明,在所有三个分类群中,移动原件插入(MEI)和所有SVs类型的种群频率平均低于sSNPs,倒位(INV)事件具有最极端的SFS,暗示INV事件在进化过程中可能受到强纯化选择;根据SNPs、SVs和SNPs+SVs计算了三个分类群中的LD,研究表明,LD在粳稻中的衰减比籼稻或野生稻慢,表明粳稻的遗传多样性较低,且SVs通常比SNPs具有较低的LD值,由于有害影响,SVs的种群频率平均低于sSNPs,因此可能具有在物理距离上LD衰减更快的潜力。
图4 水稻群体多样性分析A. 野生稻的SNPs 和 SVs 的遗传多样性(π),线表示相关性;B、C 、D. 野生稻、籼稻和粳稻中不同 SVs 类型的SFS;E. 基于 SNPs、 SVs 和 SNPs+SVs的三个群体的连锁不平衡(LD)分析。(图片引自文献[3])3. 选择消除分析
在进化过程中,部分与环境适应或人工驯化的性状相关区域会受到强烈的选择,选择清除(Selective Sweeps)分析是研究群体适应性的过程。一般基于群体分化的FST 进行选择清除分析,并对选择消除区域做功能富集,挖掘受选择的功能基因。
2020年7月Molecular Biology and Evolution的水稻研究中[3] ,研究者通过突变负荷及固定指数(FST)来估计SNPs和SVs在基因组中的差异,在整个基因组,SNPs的平均FST估计值明显高于SVs,表明SVs种群频率较低。在了解主要栽培稻和野生稻SVs频率的基础上,研究SVs与水稻驯化的关系。富集分析表明一些在驯化过程中丢失的基因与生理和形态特征相关,如不育性秆叶、开花和抗逆性。在驯化过程中获得的基因涉及对食用品质有贡献的功能包括淀粉储存和生物合成等。
图5 与驯化相关的SVs特征A. 野生稻、粳稻和籼稻的SVs遗传负荷;B、C.基于SVs的FST分析和CLR分析;D、E.基于FST分析和Swee D分析受选择的不同类型SVs的占比。(图片引自文献[3])4. 全基因组关联分析
全基因组关联分析(GWAS)是性状相关基因定位的强有力工具,已经广泛应用于众多物种的功能基因挖掘中。基于SVs的分子遗传标记,进行全基因组水平上的表型关联分析,有助于挖掘影响复杂性状的基因变异及定位。
2020年1月Nature Plants发表的《Eight High-quality Genomes Reveal Pan-genome Architecture and Ecotype Differentiation ofBrassica napus》研究中[4] ,研究者基于PAV-GWAS检测到了传统的基于SNPs的全基因组关联分析(SNP-GWAS)难以检测到的关联位点。如A09染色体上的峰值区域为先前报道的由传统数量性状定位和图位克隆确定的区域,但是在其靶基因BnaA9.CYP78A9的调节区或编码序列中并没有找到相关的SNP。但PAV-GWAS直接检测到了BnaA9.CYP78A9启动子区上游3.9 kb的CACTA-like TE插入,被确定为角果长度和种子重量的因果变异。与不含CACTA-like TE个体相比,含CACTA-like TE的个体具有更长的角果和更大的种子。
图6 油菜群体中角果长度和种子重量的GWAS分析a. 角果长度的SNP-GWAS和PAV-GWAS;b. BnaA9.CYP78A9启动子区的CACTA-like插入;c. 不同BnaA9.CYP78A9等位基因株系的角果长度;d. 不同BnaA9.CYP78A9等位基因株系的千粒重;e-f. 8份甘蓝型油菜材料的角果长度表型;g-h. 8份甘蓝型油菜材料的粒重表型。三、样本准备及测序策略
通过构建PacBio文库和上机测序,实现动植物基因组结构变异的全面、准确检测,并根据近期发表文章和广大科研工作者的需求,在结构变异的基础上,实现了群体进化及GWAS的主要分析内容,助力各位学者的科研工作。分析内容介绍完了,那怎么进行样本准备和选择测序策略呢?根据不同的研究场景及需求,可灵活选择不同的测序策略。
1. 财大气粗版
CLR模式或HiFi模式可灵活选择,优先推荐PacBio HiFi测序模式,优势在于更高的SVs检测准确性。样本选取及测序策略如下:
代表作:2020年7月Cell发表的番茄研究中[1],研究者使用三代长读长测序捕获100个不同番茄品系中238490个SVs,通过将数量遗传学和基因组编辑结合,揭示了改变基因剂量和表达水平的多个SVs如何影响果实风味、大小和产量。结果强调了SVs在基因型-表型关系中的作用及其在作物改良中的广泛重要性和效用。
2. 经济适用版
CLR模式或HiFi模式可灵活选择,优先推荐PacBio CLR测序模式,优势在于同等数据量下更高的SVs检出率。
取样思路:搜集具有群体规模代表性的个体进行三代测序(推荐选则代表性个体总量≥10个样本),使SVs多样性最大化。用二代过滤或分型的方法检测群体样本的SVs,从而实现后续的SVs群体研究。样本选取及测序策略如下:
代表作:2019年9月Nature Plants发表的葡萄研究中[2],研究者采用长读长比对鉴定SVs,基因组比对和短读长比对进行验证,以高质量的SVs为标准,对野生(n=12)和栽培(n=50)葡萄进行二代SVs检测及过滤,获得群体SVs数据集,完成基于SVs的群体遗传和选择消除分析,最终找到性别决定和浆果颜色相关SVs候选区域。
对于动植物群体研究,大多数研究者还在基于SNPs做GWAS的分析,SVs作为表型效应更为显著的遗传标记,具有研究的新颖性,是表型挖掘及文章发表的不二利器,其身影更是频繁登陆各大主流期刊。
表1 基于三代SVs的动植物研究经典案例参考文献:
1. Alonge M , Wang X , Benoit M , et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J].Cell, 2020.
2. Zhou Y , Minio A , Mélanie Massonnet, et al. The Population Genetics of Structural Variants in Grapevine Domestication[J]. Nature Plants, 2019.
3. Yixuan K , Yi L , Tuomas T , et al. Evolutionary Genomics of Structural Variation in Asian rice (Oryza sativa) Domestication[J]. Molecular Biology and Evolution, 2020.
4. Song J, Guan Z, Hu J, et al. Eight High-quality Genomes Reveal Pan-genome Architecture and Ecotype Differentiation of Brassica napus[J]. Nature Plants, 2020.
5. Guo N, Wang S, Gao L, et al . Genome Sequencing Sheds Light on the Contribution of Structural Variants to Brassica oleracea Diversification. bioRxiv ,2020.
6. Weissensteiner M H , Bunikis I , Ana Catalán, et al. Discovery and Population Genomics of Structural Variation in a Songbird Genus[J]. Nature Communications, 2020.
7. Chawla H S , Lee H T , Gabur I , et al. Long-read Sequencing Reveals Widespread Intragenic Structural Variants in a Recent Allopolyploid Crop Plant[J]. Plant Biotechnology Journal, 2020.
8. He Y, Luo X, Zhou B, Hu T, Meng X, et al. Long-read Assembly of the Chinese Rhesus Macaque Genome and Identification of Ape-specific Structural Variants. Nature Communications,2019.
9. Soyk S , Lemmon Z H , Sedlazeck F J , et al. Duplication of a Domestication Locus Neutralized a Cryptic Variant that Caused a Breeding Barrier in Tomato[J]. Nature Plants,2019.