每周文献|芥菜的起源与驯化
文章信息
- 题目:Genomic insights into the origin, domestication and diversification of Brassica juncea
- 期刊和时间:Nature genetics,2021.9.6
- 作者和单位:第一作者湖南农业大学康雷博士,湖南农大教授刘忠松和中国农科院油料作物研究所华玮为共同通讯
研究背景
- 四倍体油菜B. juncea(AABB)源于二倍体祖先Brassica rapa (AA, 2n=20) 和Brassica nigra (BB, 2n=16)的种间杂交。
- B. juncea是单系起源还是多系起源仍有争议。
主要工作
- 三代测序(PacBio)从头组装yellow-seeded B. juncea var. Sichuan Yellow (SY)染色体基因组(15×)。
- BioNano和Hi-C技术检测基因组SV,绘制SV和染色质互作图谱。
- 结合了叶绿体,线粒体和细胞核遗传marker证明了B. juncea属于单系起源,衍生为三系独立驯化。
- 全基因组关联分析(GWAS)定位开花和粒重调控基因。
研究结果
1.基因组组装和质控
本文采用三代测序PacBio进行测序,FALCON初步组装,Illumina修正contig。
BioNano数据辅助产生大范围scaffold,比对到18条染色体上。
Hi-C数据检验假染色体,Juicebox手动修正错配contig。有关WGS,单分子光学图谱BioNano和染色质三维构象捕获Hi-C技术联合检测结构变异可参考岳峰课题组此篇Nature Genetics。
BUSCO 和CEGMA进行质控。
长末端重复序列指数(LAI)进行质控。LAI指数就是完整LTR反转座子序列占总LTR序列长度的比值。由于LTR难以组装,因此以其组装的程度(LAI质量参数)评估基因组组装结果。
注解:从外到内依次为:a, 染色体大小(MB)b,着丝粒特异性重复密度。染色体着丝粒区内存在大量高度重复区域,因此染色体着丝粒区的组装是一直以来待解决的问题。 不过今年NATURE发表了华盛顿大学Glennis A. Logsdon的文章:利用PacBio和ONT测序技术组合互补,解决了人类八号染色体的着丝粒重复区域的组装问题。c,高置信度基因(平均编码长度大约1.13k,至少包含五个外显子/基因)d, 高质量基因的表达水平(FPKM)。e和f, LTR/copia 和LTR/gypsy的密度分布,着丝粒和着丝粒边缘区分布有LTR/copia 和LTR/gypsy。二者的密度预示着着丝粒区的位置。g,DNA反转录转座子密度。h,已知的调控性状基因的位置。
2.地理分布和群体结构
Figure2| B. juncea的地理分布,群体结构和基因组多样性注解:(1)图a通过R语言ggplot2即可完成。(2)图b为最大似然法构建系统发育树。使用ADMIXTURE软件绘制群体结构图。推荐优先用ADMIXTURE绘制群体结构图,速度优先于其他软件(例如STRUCTURE)(3)图c核苷酸多态性 (π), 群体遗传分化指数 (FST) 和遗传距离 (D)。核苷酸多态性π衡量的是同一物种不同基因型中碱基mismatch的程度,越大表示群体内多样性高。结合e图LD衰减曲线可知:π越大,LD衰减越快,物种多样性越大。回到d图,Fst多用于亚群体比较遗传分化程度,Fst越大,亚群分化程度越高。Fst处于0-1之间,0代表种群间没有差异,可自由交配;1代表种群完全隔离。在d中是连线上红色的数字。π和FST通过vcftools软件计算。连线上黑色的数字表示遗传距离D,群体间相似基因越多则遗传距离越近。D通过Arlequin软件计算。e图中的R2(LD系数)衡量不同基因之间的相关性,即连锁不平衡。R2在0-1之间,1表示完全连锁,0表示完全随机。文中使用PopLDdecay计算r2。
3.芥菜的驯化和传播
Figure3| 芥菜的形成和传播历史注解:(1)图a最大似然法对B. juncea的亚群体与两个亲本Brassica rapa (AA, 2n=20,左)和Brassica nigra (BB, 2n=16,右)分别建树。(2)图b和c统计了B. juncea与两个亲本推算的假祖先的分子分歧(KA/KS Calculator)及其时间(SMC++)。图e是通过NASA官网下载的。(3)图d为B. juncea群体中染色体组的基因流情况,此处使用TreeMix进行计算。其原理是以等位基因频率数据(SNP数据)作为输入数据,构建最大似然树以推测可能的群体混合。并推测得到一个协方差,与等位基因频率协方差(实际的协方差)进行比较,因为基因流会减少种群差异,利用种群差异的回归值计算基因流。
4.芥菜的清除选择,GWAS定位开花基因
Figure4| 全基因组的清除选择以及GWAS定位开化基因注解:(1)图a为清除选择位点在全基因组的分布,XP-CLR利用了两个群体之间的多基因座等位基因频率差异(multilocus allele frequency differentiation)建立模型,使用布朗运动来模拟中性下的遗传漂移,并使用确定性模型来近似地对附近的单核苷酸多态性(SNPs)进行选择性扫描。看不太懂?知道XP-CLR软件能检测基因组清除选择信号就行了。(2)图b和e分别解析了A10 和B05染色体的特定位置,分别包含了SRR1和VIN3基因。图c和f对比了SRR1和VIN3的三种单倍型。图d和g的箱线图统计了在四种环境下三种单倍型的开花时间。
5.芥菜的根膨大基因的定位
Figure5| 芥菜根膨大基因的定位注解:仿照上图定位芥菜根膨大基因。先用XP-CLR在全基因组范围内解析B. juncea有关块茎形成的清除选择位点。图b和c分别对候选的两个基因进行单倍型分析。图d检测两个基因的表达水平(FPKM)。
参考信息:
1.Kang, L., Qian, L., Zheng, M. et al. Genomic insights into the origin, domestication and diversification of Brassica juncea. Nat Genet 53, 1392–1402 (2021). https://doi.org/10.1038/s41588-021-00922-y
2.Dixon JR, Xu J, Dileep V, et al. Integrative detection and analysis of structural variation in cancer genomes. Nat Genet. 2018;50(10):1388-1398. doi:10.1038/s41588-018-0195-8
3.解析| WGS、BioNano、Hi-C,到底谁是SV鉴定“王者”?, 2018-09-17
4.Logsdon, G.A., Vollger, M.R., Hsieh, P. et al. The structure, function and evolution of a complete human chromosome 8. Nature 593, 101–107 (2021). https://doi.org/10.1038/s41586-021-03420-7
5.Admixture:一款快速分析群体遗传结构的软件, 2018-11-09](https://www.sohu.com/a/274366967_773056)