2022《Nature Genetics》 | 生物网络大数据之
该研究构建了玉米第一代多组学整合网络图谱,涉及到基因组、转录组、翻译组和蛋白互作组多个遗传层级的200万个网络关系。
早在1万年前人类开始陆续驯化出多种作物。现代玉米(Zea mays ssp. mays)起源于中美洲墨西哥地区巴尔萨斯河流域, 由其野生祖先种大刍草(Z. mays ssp.parviglumis )驯化而来(Matsuoka et al., 2002)。自1492年哥伦布发现美洲新大陆并将玉米种子带到欧洲后, 玉米便开始向全世界传播, 现已成为我国乃至世界第一大粮食作物。2009年玉米B73自交系参考基因组序列的发布使玉米基因组学研究进入新时代。随着测序技术的更新迭代和测序成本的降低, 多个玉米自交系的基因组序列相继发表。2021年, 美国Hufford研究团队公布了玉米巢式关联定位群体(nested association mapping, NAM) 26个亲本的基因组序列(Hufford et al., 2021); 2022年, 华中农业大学严建兵团队公布了玉蜀黍属“超级泛基因组”图谱(Gui et al., 2022), 这些基因组序列的释放极大地促进了玉米重要性状的遗传解析、功能基因的挖掘及玉米进化机制的阐释。
转录组、代谢组和蛋白质组等多维组学技术的广泛应用, 为玉米功能基因组学研究带来了前所未有的发展契机。Tu等(2020)利用转录组测序技术全面解析了玉米叶片中表达的转录因子结合位点, 构建了玉米叶片转录调控网络。Xu等(2021)对玉米未成熟雌穗进行单细胞转录组测序, 构建了玉米花序发育组织转录调控图谱。Wen等(2018)通过代谢组测序技术分析了513份玉米自交系的61条基础代谢途径, 鉴定出760个参与不同代谢通路的候选基因。Zhu等(2021)利用开发的翻译组测序技术, 成功构建了玉米多组织的翻译组图谱。Walley等(2016)通过转录组和蛋白质组联合分析, 建立了一个大规模的与玉米发育过程相关的基因表达谱; 并发现基于基因表达量构建的共表达网络与基于蛋白质表达量构建的调控网络存在较大差异, 仅有15%的调控网络保守。尽管单一组学的研究为我们提供了重要的数据库信息, 但仍有一定的局限性。如何利用多组学数据库精准预测基因功能及鉴定重要性状的分子调控通路仍是该领域研究人员面临的巨大挑战。从基因组到转录组、翻译组和蛋白质组, 及从基因到表型的调控为层层加密环环相扣。应用多组学的整合分析能够极大地提高对基因功能和调控通路的预测能力。
近日, 华中农业大学李林课题组联合杨芳课题组和严建兵课题组发表了玉米首个多组学数据整合网络图谱(Han et al., 2022)。该图谱整合了三维基因组、转录组、翻译组以及蛋白质互作组4个层次的数据:
(1) 以Peng等(2019)利用ChIA-PET (chromatin interaction analysis using paired end tag sequencing)技术鉴定到约14 788个玉米近端和远端顺式调控元件的三维互作数据为基础, 绘制了高分辨率的三维基因组图谱;
(2) 通过整合31份玉米不同组织和时期的转录组数据, 构建了玉米基因共表达图谱;
(3) 对21份玉米不同组织和时期的翻译组数据进行整合, 绘制了翻译组共翻译图谱;
(4) 利用高通量酵母双杂交技术(Yang et al., 2018), 获得包含15 476个玉米蛋白的360 000多对互作数据, 其中高可信度的蛋白互作关系达56 243对。
最终, 3万个玉米基因在多组学水平形成280万个调控连接, 构成1 412个调控模块。该研究一个重要的创新点是通过改造酵母双杂交系统的载体质粒(Yang et al., 2018), 将诱饵蛋白所在载体(pGBKT7)插入ATTB位点, 将捕获蛋白所在载体(pGADT7)插入ATTP位点, 分别在2个载体上插入来自噬箘体PhiC31的表达盒。利用PhiC31介导的ATTB位点和ATTP位点发生重组, 使互作的2个蛋白所在质粒整合为1个大质粒, 进一步通过扩增、酶切后加接头及二代测序技术获得高通量的蛋白互作网络, 这是迄今为止最完善的玉米蛋白互作数据库。
大规模分子实验数据与大数据挖掘分析的有效结合, 使该数据库具备了信息全面和功能强大的优越性(Han et al., 2022)。他们测试了该多组学整合网络图谱预测新基因的效率(Han et al., 2022)。分蘖减少和顶端优势增强是玉米驯化中关键的形态转变, 这一驯化过程主要由tb1 (teosinte branched 1)、gt1 (grassy tillers 1)和tru1 (tassels replace upper ears 1)等基因调控(Doebley et al., 1997; Gallavotti et al., 2004; Whipple et al., 2011; Dong et al., 2017)。该研究团队利用多维网络图谱鉴定到2个与tb1、gt1和tru1共表达的ALOG转录因子基因ZmALOG1和ZmALOG2; 并进一步利用CRISPR基因编辑技术证明ZmALOG1和ZmALOG2敲除突变体表现出多分蘖表型。CUC (CUP-SHAPED COTYLEDON)基因家族是拟南芥(Arabidopsis thaliana)中已克隆的影响器官发育边界的基因, 但在玉米中还未见报道。该研究团队分析了玉米CUC基因(ZmCUC3、ZmNAM1和ZmNAM2)所在的调控网络, 发现这些基因与调控玉米侧生器官形成和发育的Tsh1 (Gallavotti et al., 2004)、Ba1 (Gälweiler et al., 1998)和ZmPIN1 (Xiao et al., 2022)存在显著互作, 并进一步利用基因编辑技术证实ZmNAM1和ZmNAM2参与玉米侧生器官发育的调控; 此外, 他们对目前研究较为完善的玉米籽粒发育基因调控网络进行了分析。截至目前, 玉米中共有63个调控籽粒发育的基因被克隆, 其中62个基因位于该整合图谱中。该研究团队成功预测并证实了1个未知功能的PPR蛋白能够影响玉米籽粒的皱缩。上述研究结果充分证明了该整合网络图谱具有强大的预测基因功能的能力。
除预测单个基因的生物学功能外, 他们还测试了多组学整合网络在揭示重要农艺性状分子调控通路上的预测能力(Han et al., 2022)。开花期是影响玉米产量和决定玉米适应性的关键性状, 众多研究者利用突变体、QTL克隆和比较基因组学方法鉴定了一系列调控玉米开花期的重要基因(Liang et al., 2021), 但玉米开花期的分子调控网络尚不完善。李林课题组与杨芳课题组和严建兵课题组合作, 基于多组学整合网络, 利用机器学习的方法, 预测出2 651个玉米开花期基因, 并进一步鉴定到8条可能的玉米开花期调控通路, 分别为光信号途径、生物钟途径、光周期途径、自主途径、赤霉素途径、花序组织特定表达途径、成花转变途径及其它途径。利用基因编辑技术和甲基磺酸乙酯(ethyl methanesulfonate, EMS)诱变突变体, 对20个位于不同调控通路的基因进行生物学功能验证, 其中18个基因的功能之前在玉米中未有报道。需要指出的是, 他们鉴定出一条新的开花调控通路, 该通路基因在拟南芥中的同源基因参与春化基因FLC的表观调控, 说明拟南芥春化基因在玉米中可能发生了功能分化, 具体分子机制有待进一步研究。多组学整合网络对玉米基因组进化特征也提供了重要线索。
Schnable等(2011)通过比较高粱(Sorghum bicolor)和玉米基因组, 发现玉米由于基因组加倍存在2个亚基因组, 分别为maize1和maize2, 其中maize1为更具优势的亚基因组。该研究团队从多组学水平比较了2个亚基因组的网络图谱, 发现2个亚基因组在转录组、翻译组和蛋白组的调控网络上存在渐进式的功能分化, 在共表达水平上2个玉米亚基因组之间不存在显著差异; 在共翻译水平上虽有差异, 但仍不显著; 在蛋白质互作水平上2个玉米亚基因组则存在显著的功能分化。基因组复制是植物基因组进化的重要特征之一。通过分析不同类型的复制基因在多组学水平的分化程度, 他们发现从共表达、共翻译到蛋白互作组, 玉米复制基因间调控网络的分化程度越来越高(Han et al., 2022)。
随着作物基础研究的持续深入和生物育种技术的不断进步, 作物育种进入4.0时代, 即BT+IT驱动的智能设计育种。智能设计育种的本质是大数据、机器学习等人工智能技术与多组学技术、基因编辑、合成生物学等生物技术的深度融合, 以实现作物新品种的定向、智能、高效设计和培育(王向峰和才卓, 2019; 汪海等, 2022)。其中, 基因组、表型组、转录组、蛋白组和代谢组等多维组学大数据是利用机器学习等人工智能技术精准挖掘关键基因和分子模块进行基因组智能设计育种的基础。该研究整合玉米三维基因组、转录组、翻译组和蛋白质互作数据, 构建了首个玉米多维组学整合网络图谱, 并利用机器学习方法成功预测了一批重要功能基因, 鉴定出调控玉米开花期等重要性状的分子调控通路。玉米多维组学整合网络的构建是玉米功能基因组学研究的重大进展, 不仅为玉米重要性状新基因克隆、分子调控通路解析和玉米基因组进化分析提供了新工具, 也为玉米基因组设计育种提供了重要基因资源和分子模块, 为玉米智能育种奠定了重要基础(图1)。
多组学整合网络图谱是精准解锁玉米功能基因组学的新钥匙(本图由Figdraw绘制, 玉米植株图改自Chen等(2021))图 1 Figure 1 **Multi-omics integrative network map is a new key to accurately decode the maize functional genomics (this figure is drawn by figdraw and the plant picture is adapted from Chen et al., 2021)
论文原文PDF下载: Han LQ, Zhong WS, Qian J, Jin ML, Tian P, Zhu WC, Zhang HW, Sun YH, Feng JW, Liu XG, Chen G, Farid B, Li RN, Xiong ZM, Tian ZH, Li J, Luo Z, Du DX, Chen SJ, Jin QX, Li JX, Li Z, Liang Y, Jin XM, Peng Y, Zheng C, Ye XN, Yin YJ, Chen H, Li WF, Chen LL, Li Q, Yan JB, Yang F, Li L(2022). A multi-omics integrative network map of maize. *Nat *Genet Doi: https://www.nature.com/articles/s41588-022-01262-1来源:植物学报
https://mp.weixin.qq.com/s/LkE2RncJjNJNEUgU8uc1Yw
https://mp.weixin.qq.com/s/m2o2JRMIpArsZWZZki57Ig
https://mp.weixin.qq.com/s/r48IAgxiK36AST32-ILb9A