泛基因组(Pan-genome)研究思路与应用—作物篇
随着基因组测序技术的不断发展,越来越多的物种已完成全基因组密码的破译,在基因组信息全面解析的基础上,对于某物种的功能基因定位,驯化等相关深入研究具有重要意义。然而在漫长的物种进化过程中,由于自然选择和人为选择等的影响,每个个体都形成了极其独特的遗传性状,单一个体的参考基因组已不能涵盖该物种的所有遗传信息,即:One reference genome is not enough!,换而言之,如果仅使用单一的参考基因组进行遗传驯化变异等的研究,可能会丢失很多有意的遗传密码信息,因为很多特有的序列都不在参考基因组上,同时由于基因测序的价格变得更加廉价,为近年来火爆的泛基因组(Pan-genome)研究提供了可能,特别是在作物研究中,如水稻,玉米,大豆,番茄,棉花,油菜,拟南芥等研究中逐渐具有普适性。本文中小编参考了大量泛基因组相关研究素材,优先为大家解析泛基因组在作物中的研究思路与应用。
一.什么是泛基因组(Pan-genome)?
泛基因组(Pan-genome)即某一物种全部基因的总称,这里这个全部基因是有别于个体基因组的基因的。一个个体的基因组是这个物种基因组的代表。因此,以一个基因组为模板的分析不能全面的反应物种基因水平的全部遗传信息,尤其是在研究同一物种中差异巨大的不同亚种或者变种,此类特有片段的差异往往要比共有片段中的差异更为重要。分析核心基因和非核心基因的基本情况,并从特有基因序列的角度来研究物种内的差异。

图1 常见作物种类
二.泛基因组(Pan-genome)的发展史
2005年,Tettelin H等人首次提出了微生物泛基因组概念(pangenome,pan源自希腊语‘παν’,全部的意思),泛基因组即某一物种全部基因的总称;2009年,Li等人首次采用新全基因组组装方法对多个人类个体基因组进行拼接,发现了个体独有的DNA序列和功能基因,并首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和;2009年泛基因组测序首次应用于人类基因组学研究;2013 年,泛基因组测序开始应用于动植物研究领域;2014年,开启了作物泛基因组研究历程,如大豆,水稻玉米,油菜,棉花等。

图2 泛基因组发展史
三.泛基因组(Pan-genome)的主要研究内容
泛基因组进而可以分为,核心基因(core genome)和非核心基因(dispensable genome)。核心基因(core genome):在所有动植物品系或者菌株中都存在的基因;非核心基因(dispensable/variable/accessory/genome):在1个以及1个以上的动植物品系或者菌株中存在的基因。如果某个基因,仅存在某一个动植物品系或者菌株中,该基因还可以细分为品系或者菌株特有基因。一般来说,核心基因控制着生命体基本生成代谢的功能。另外,结构变异是泛基因组的重点研究对象,因为可变基因组可能就是使个体产生不同性状(抗病性,抗寒性等)的原因。因此对非核心基因结构变异的研究成为了作物泛基因组(Pan-genome)研究的重点,而三代测序技术(PacBio or Nanopore Technology)无论在基因组组装还是在结构变异检测上具有极大的优势,因此成为了现今泛基因组研究的核心技术平台。

图3 泛基因组研究思路
四.作物泛基因组(Pan-genome)材料选择
1.材料数量
影响pan-genome规模的因素之一是pan-genome研究中非核心基因所占百分比 (在作物pan-genome的研究中,非必需基因组的比例从8%上升到61%),其中样本量是pan-genome研究的重要因素。在构建“pan-genome”开始,随着鉴定新基因的个体数目的增加,“pan-genome”的大小也随之增加,但核心基因的百分比随之下降。

图4 3个水稻Nipponbare (temperate japonica), IR64 (indica)和DJ123 (aus)核心基因与非核心基因占比(Schatz et al., 2014

图5 Pan-genome和Individual genome之间的比较(Wang et al., 2018)
例如,在针对3010份水稻种质的研究中,pan-genome(48098 genes)中非核心基因占比达到~41%,该比例比前期的3份水稻种质的pan-genome(40362 genes)研究中(非核心基因3144个,占比~8%)高很多(Schatz et al., 2014;Wang et al., 2018)。对于作物研究,随着测序个体数量的增加,鉴定出的新基因数量趋于减少,这表明存在有限数量的基因组,超过此数量的基因组后,将更多的基因组纳入分析中将不会导致pan-genome的进一步扩张。
2.材料特性
材料的选择对pan-genome研究的检测效率和完整性也有十分重要的影响:1. 亲缘关系远近:亲缘关系近的材料的选择将会低估pan-genome的大小;2. 野生种质与栽培种质的结合:野生种质和栽培种质的结合可产生更大种规模的pan-genome,其非核心基因的比例比单纯的利用栽培作物材料的高出很多。

图6 3个水稻Nipponbare (temperate japonica), IR64 (indica)和DJ123 (aus)核心基因与非核心基因占比(Schatz et al., 2014)

图7 Pan-genome和Individual genome之间的比较(Wang et al., 2018)
材料的选择对pan-genome研究的检测效率和完整性也有十分重要的影响。例如,通过小麦的研究报道发现,在pan-genome中,亲缘关系近的材料的选择(研究中选择了10份栽培种小麦)将会低估pan-genome的大小 (Montenegro et al., 2017)。另一方面,野生种质和栽培种质的结合可产生更大种规模的pan-genome,其非核心基因的比例比单纯的利用栽培作物材料的高出很多。如,在66份水稻(包含栽培稻Oryza sativa和普通野生稻Oryza rufipogon)的pan-genome的构建中,包含了42580个基因,其中含~38%的非核心基因 (Zhao et al., 2018),研究中野生种与栽培种材料的结合,获得了更多的受选择位点。
在作物研究中,随着测序研究材料个体数量的增加,鉴定出的新基因数量趋于减少,这表明存在有限数量的基因组,超过此数量的基因组后,将更多的基因组纳入分析中将不会导致pan-genome的进一步扩张(图8);在作物驯化过程中,遗传多样性的缺失对pan-genome的大小及非核心基因的占比具有负面影响。因此,野生材料的增多将使得pan-genome核心基因占比增加(驯化过程中多样性降低程度有限的农作物趋向于具有较高的非核心基因百分比)(图9);非核心基因的百分比代表了物种的多样性,因此其可能受到物种的倍性水平,繁殖方式,驯化过程中的瓶颈期等的影响。高倍性和异源杂交率提供了更高水平的多样性和对有害突变的耐受性,从而使得pan-genome具有更高的非核心基因的比例。

图8 500份水稻pan-genome和core genome的变 化(Wang et al., Nature, 2018)

图9 5份芝麻(2份农家种,3份栽培种)core genome和dispensable分析(Yu et al., Plant Biotechnology Journal, 2018)</figcaption>
五.泛基因组(Pan-genome)的构建
构建pan-genome的核心是检测个体之间基因的presence/absence变异。这需要将相似的序列分为不同的等位基因,额外的拷贝或非必需基因。序列之间的相似性使得识别个体间的变异非常难,此时组装完成的基因组中的物理位置和基因顺序信息的获得将非常有意义。构建Pan-genome的方法主要有3种:Iterative、map-to-pan和De novoassembly,Iterative和map-to-pan的方法是通过将短的reads比对到已经注释的基因组上进而鉴定基因的PAVs。然而这种方法对于多拷贝基因的检测是有局限的,且由于作物基因组的高度重复性和SVs的普遍存在,极易出错 (Gan et al., 2011;Zapata et al., 2016),相比之下,De novoassembly是通过比对已组装注释完成的基因,进一步推测基因的PAVs,因此这种方法可以提供更加准确的pan-genome信息。然而,高组装质量基因组的获得,需要以高深度测序为代价。iterative assembly和map-to-pan在相对低的测序深度下即可实现pan-genome的研究,因此花费相对低,可以选择的个体材料相对多。除了组装方法外,个体的数量和个体之间的遗传关系对于pan-genome研究的全面性也至关重要,及pan-genome的大小是否可以准确的估算 (Hurgobin and Edwards, 2017)。不断发展的测序技术,特别是长读测序技术和组装方法,大大降低了实现高质量从头组装的成本,进而有利于未来的De novoassembly研究。

图10 构建pan-genome的不同方法(Golicz et al., Plant Biotechnology Journal, 2016)
六.泛基因组(Pan-genome)结构变异分析
现代作物“Gene pool”的遗传变异涉及到SNPs,InDels及SVs,这些变异信息为作物的人为选择及自然选择提供原始的材料,了解变异产生的过程,探究不同材料的变异程度并利用有利的变异对维持并提高作物生产力至关重要,用以满足气候环境变化下日益增长的世界人口的迫切的需求。

图11 导致物种功能基因变化的主要变异类型 (Tao et al., Molecular Plant, 2018)
Pan-Genome的非核心基因的主要变异类型是结构变异(SVs),了解作物中的SVs变异对于了解物种中可用的基因填充及其在作物育种中的应用至关重要。物种结构变异SVs主要形成因素有2个:1. SVs可以通过TEs转座子的移动而形成(主要位于非核心基因区),在很多物种中已经发现PAVs富集在转座子TEs区 ,TE活性可以介导大规模的染色体重排,例如Ac/Ds TEs,MULEs,Helitron转座子等;2. 非等位基因同源序列的重组也可导致SVs的形成。在减数分裂过程中,非等位基因同源序列可能会错位并形成交叉,最终导致基因组结构重排。容易使非等位基因重组的基因组特征与SV的发生有关。
作物不同品种基因组结构变异分析实例:
(一)香米不同品种基因组结构变异分析

图12 香米Basmati 334和Dom Sufid共有和特有PAVs变异数量分析( Choi et al., Genome Biology, 2020)

图13 香米Basmati 334和Dom Sufid的PAVs变异在染色体上的分布(水稻日本晴标定)( Choi et al., Genome Biology, 2020)
(二)水稻不同品种基因组结构变异分析

图14 籼稻ZS97和MH63 全基因组变异比较分析(Zhang et al., PNAS, 2016)

图15 67份水稻中6个农艺性状相关基因的多态性等位基因频率(Zhao et al., Nature Genetics, 2018)
(三)玉米不同品种基因组结构变异分析

图16 玉米Mo17 和Mexicana全基因组变异比较分析(Yang et al., Nature Communications, 2017)

图17 玉米B73和Mo17 全基因组变异比较分析(Sun et al., Nature Genetics, 2018)

图18 玉米 黄早四与已发表玉米基因组基因家族聚类分析(Li et al., Molecular Plant, 2019)

图19 玉米 K0326Y和B73,Mo17 全基因组变异比较分析(Li et al., Nature Communications, 2020)

图20 热带玉米SK和B73全基因组变异比较分析(Yang et al., Nature Genetics, 2019)
(四)棉花不同品种基因组结构变异分析

图21 异源四倍体陆地棉和海岛棉全基因组变异比较分析(Wang et al., Nature Genetics, 2018)

图22 异源四倍体陆地棉TM-1和ZM24全基因组变异比较分析(Yang et al., Nature Communications, 2018)
(五)油菜不同品种基因组结构变异分析

图23 8份油菜全基因组变异分析(ZS11为参考)(Song et al., Nature Plant, 2020)
七.作物泛基因组(Pan-genome)组学研究思路
(一)泛基因组+群体进化研究
根据泛基因组中各个品种间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。利用基因家族聚类和统计中,OrthMCL分析提取单拷贝基因,利用”串联法“连接成一个“super gene”。然后利用这个超级基因进行构建基因树;同时可在此基础上整合大规模群体进化研究,进一步进行佐证。
案例(一)8份油菜

图24 9份油菜全基因组变异分析

图25 甘蓝型油菜A亚基因组起源分析(417份材料)( Song et al., Nature Plant, 2020)
案例(二)2份香米

图26 香米circum-basmati的系统进化分析

图27 香米circum-basmati与水稻间的基因交流( Choi et al., Genome Biology, 2020)
(二)泛基因组+群体功能基因定位研究
从泛基因组学研究中获得的信息需要与QTL / GWASs和重测序研究相整合,以鉴定出有益的基因和等位基因,以便在有效的育种策略中进行作物改良。因此,整合这些研究可以为植物遗传学家和育种者提供全面的基因组资源,对于作物育种和研究具有重要的意义。
案例(一)384份栽培辣椒

图28 不同栽培品种辣椒基因家族聚类分析

图29 384份重测序材料的PAV-GWAS分析(Ou et al., New Phytologist, 2018)
案例(二)725份番茄
从泛基因组学研究中获得的信息在与QTL / GWASs和重测序研究相整合研究中,同时在群体材料表型调查中,可与代谢组研究相整合,对作物次级代谢产物及风味等相关农艺性状进行精细定位。

图30 番茄类胡萝卜素含量质谱分析(HPL-AC)

图31 类胡萝卜素和脂肪酸的QTLS定位(Gao et al., Nature Genetics, 2019)
(三)泛基因组+转录组研究
根据泛基因组中各个品种间的变异分布,与RNA-seq结合,进一步验证相关基因变异导致表达量的差异,结合表型信息,挖掘与性状相关基因。
案例 7份大豆

图32 大豆GsojaA-G中CNV抗性相关基因表达分析(Li et al., Nature Biotechnology, 2014)
(四)泛基因组+数据库部署
近年来,随着测序技术的不断提高,测序成本逐渐降低,使一些重要物种的测序数据呈指数级增加,而这些数据中蕴含着巨大的价值,有力的推动了构建物种数据库的新浪潮。物种数据库的构建,能为解答基因组进化、系统发育等问题提供参考,也对指导育种具有重要意义。
案例(一)水稻数据库

http://www.ncgr.ac.cn/RicePanGenome(Wang et al., Nature,2018)
案例(二)油菜数据库

http://cbi.hzau.edu.cn/bnapus/(Song et al., Nature Plant, 2020)
参考文献:
Exploring and Exploiting Pan-genomics for Crop Improvement.