泛基因组:物种研究的下一个目标
基因组学的大部分领域都围绕着参考基因组的存在,参考基因组是每个物种代表性个体的路线图。随着测序技术的不断发展和基因组研究的深入,人们逐渐意识到单个参考基因组给群体研究带来的许多限制。最近,越来越多物种,越来越大规模的泛基因组被报道。构建泛基因组,似乎已经成了大多数动植物基因组研究的目标。
什么是泛基因组
泛基因组由Tettelin等人于2005年在细菌中提出,指一个生物分支(如一个物种)的全部基因组信息,可分为由所有个体共享的核心基因组和部分个体共享或个体特异性的非必需基因组组成。即泛基因组捕捉一个物种的全部基因内容。之后,泛基因组的概念逐渐应用到真核生物中。在真核生物中,泛基因组通常被定义为包括基因组集合中的所有DNA序列,而不仅仅是基因。
图1 泛基因组的概念(图片引自原文[1])为什么要构建泛基因组
目前已经有许多物种构建了泛基因组,如短柄草、甘蓝、甘蓝型油菜、辣椒、苜蓿、杨树、水稻、大豆、芝麻、番茄、向日葵、小麦、猪和人等。这些泛基因组分析已经为许多物种带来了新的见解。
01 提供更完善的参考基因组信息
泛基因组的目的在于捕捉一个物种的全部基因组序列,以解决单个参考基因组给群体研究带来的许多限制。通过构建泛基因组,可以将每个物种中的代表性个体的特异基因组序列包括到泛基因组中,获得物种更全面的信息。例如,人的泛基因组表明,约19–40 Mb的序列在现有参考基因组中缺失。利用54份短柄草构建的泛基因组总序列长达430 Mb,比272 Mb的参考基因组多出58%,多出40%的基因。
更完善的参考基因组信息对于群体研究是尤为重要的,因为对于依赖参考基因组比对的群体研究来说,参考基因组是决定群体变异检测全面性和准确性的关键。基于泛基因组的分析可以发现单个参考基因组中缺失的变异。这对于农艺性状相关基因的挖掘非常重要。
图2 泛基因组提升变异检测全面性(图片引自原文[2])对于基于图形的泛基因组来说,这一点更为明显。相对于线性参考基因组,重测序数据可以更快且更准确的比对到图形结构参考基因组。目前已经有多个分析工具已经可以实现图形结构参考基因组的比对。最近发表的大豆泛基因组中,作者就将2898份材料的重测序短序列比对到图形的基因组上,鉴定了总共55402个SVs。
图3 基于图形结构参考基因组的比对(图片引自原文[2])02 深化物种驯化和改良研究
泛基因组分析可以对大量的结构变异进行分析,进而揭示物种驯化和改良的机制。这也是目前大多数泛基因组研究的重点。例如最近发表的大豆泛基因组通过分析SV对全基因组复制、基因结构、基因表达的影响,揭示了大豆驯化改良的机制。2019年发表的番茄泛基因组通过PAVs分析表明在番茄驯化和改良过程中,存在大量的基因丢失和强烈的基因和启动子负选择,深化了抗病性、风味的了解。
图4 大豆中结构变异导致开花基因 E3 基因结构改变(图片引自原文[3])如何构建泛基因组
01 材料选择
为尽可能用最低的成本捕获物种所有的基因组信息,应该基于经验或群体结构信息选择最具代表性的个体进行泛基因组构建。例如,大豆泛基因组中,通过2898份大豆的重测序和进化树构建,选择了26份在系统发育关系和地理分布方面最具代表性的材料进行泛基因组构建。同样,66份水稻泛基因组研究中,样本的选择同样参考了之前1529份水稻重测序研究的群体结构信息。
图5 大豆泛基因组材料的选择(图片引自原文[3])02 测序策略
一直以来,限制泛基因组广泛开展的一个重要限制因素是测序技术瓶颈和测序成本。与Illumina等短读长测序相比,PacBio长读长在基因组组装连续性方面具有无法比拟的优势。随着PacBio测序通量的提升和成本的降低,基于PacBio测序泛基因组研究越来越广泛。2020年发表的三篇泛基因组(大豆、狗尾草、油菜)均采用了PacBio长读长测序。测序深度一般在50-100X左右甚至更高。为降低测序成本,另一个策略是选择一个典型个体进行白金级基因组的组装,其他个体测序深度则相应降低。
值得一提的是,最近PacBio HiFi测序在高质量基因组快速组装方面体现了卓越的优势。对于泛基因组这样的大样本量基因组组装来说,采用HiFi测序无疑是目前最好的选择。
03 泛基因组构建方法
对于动植物等真核生物泛基因组的构建,目前常用的方法包括迭代组装、Map-to-pan、从头组装和图形结构基因组等。
1)迭代组装和Map-to-pan方法
迭代组装和Map-to-pan方法都依赖于已有的参考基因组。迭代组装通过将来自其他样品的序列按顺序比对到泛基因组上,并用未比对的序列更新泛基因组序列。Map-to-pan方法则是先分别进行Contigs组装,然后与泛基因组进行比对,未比对上的Contigs被添加到泛基因组中。这两种方法一般是采用较低深度的短读长测序时使用,如甘蓝泛基因组、番茄泛基因组和水稻泛基因组等。
2)从头组装方法
从头组装的方法分别对个体基因组进行组装,然后通过基因组序列比对进行基因组变异研究。该方法不依赖参考基因组,因此能够更全面的获得个体基因组特异性序列。这种方法一般要求测序深度较高,以获得从头基因组组装的准确性和连续性。
3)图形结构泛基因组
图形结构泛基因组是在基因组从头组装的基础上,将基因组及其变异表示为图形结构,该方法除了考虑非参考序列有哪些外,还考虑了替代序列位于什么位置。图形结构泛基因组为如何利用构建的泛基因组的全部信息进行群体重测序研究奠定了基础。以图形结构基因组为参考基因组比传统的线性参考基因组相比,可以在群体中检测到更全面的变异信息。但图形结构基因组使得信息计算和存储都变得更复杂。最近发表的大豆泛基因组即采用了这种方法。
图6 泛基因组构建方法(图片引自原文[4])泛基因的研究内容
泛基因组研究目的在于通过对物种的多个代表性个体在基因和序列变异层面进行分析,全面揭示物种的基因组特征和驯化改良特征。
01 泛基因集分析
泛基因组中的基因根据在所有个体中共享的程度分为核心基因和非必需基因,非必需基因基于共享程度可进一步分为次核心基因、可变基因和散在基因。不同类型基因在特征和功能上具有明显差异。通过对不同类型基因集的比较,可以进一步揭示物种的基因组变化和适应性机制。例如,在短柄草泛基因组研究中,所有品系中共有的基因都富集了基本的生物学功能。而仅在一些品系中存在的基因富集了条件有益的功能(例如,防御和发育),并且显示出更快的进化速率,更接近转座因子,几乎不与其他草本物种中的同源基因共线。而且它们在表达层面也有明显差异。这些分析强调了转座子在泛基因组进化中的关键作用。
图7 短柄草泛基因组中核心和非必需基因的比较(图片引自原文[5])02 结构变异分析
相比于原核生物基因组主要由基因序列组成,真核生物基因组中有超过50%的基因组可能是基因间的,并且基因序列本身还包含内含子。因此,真核生物泛基因组除了要关注基因外,更应该关注序列的变异。大量泛基因组研究都揭示了结构变异在物种驯化改良中的作用。
例如,在大豆泛基因组研究中,挖掘到大量利用传统基因组无法鉴定到的大片段结构变异,并详细分析了结构变异对全基因组复制的影响,证明了E3和SoyZH13_19G210600 基因融合的存在及其对开花时间的影响,揭示了结构变异对 I 位点进化和大豆种皮颜色的影响,解释了SoyZH13_14G179600 启动子区的Indel对大豆适应铁吸收机制。
图8 大豆中结构变异与铁吸收适应性(图片引自原文[3])参考文献
1. Golicz Agnieszka A,Bayer Philipp E,Bhalla Prem L et al. Pangenomics Comes of Age: From Bacteria to Plant and Animal Applications.[J] .Trends Genet, 2020, 36: 132-145.
2. Sherman Rachel M,Salzberg Steven L,Pan-genomics in the human genome era.[J] .Nat Rev Genet, 2020, 21: 243-254.
3. Liu Yucheng,Du Huilong,Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans.[J] .Cell, 2020, 182: 162-176.e13.
4. Monica Furaste Danilevicz,Cassandria Geraldine Tay Fernandez, Jacob Ian Marsh et al.Plant pangenomics: approaches, applications andadvancements.[J] .Curr Opin Plant Biol, 2020, 54: 18-25.
5. Gordon Sean P,Contreras-Moreira Bruno,Woods Daniel P et al. Extensive gene content variation in the Brachypodium distachyon pan-genome correlates with population structure.[J] .Nat Commun, 2017, 8: 2184.