PacBio全长转录组“祖传”应用方向
全长转录组(Iso-Seq)指利用三代长读长测序平台,无需打断和拼接,直接获取包含5’UTR,3’UTR及Poly A尾的完整转录本,可克服无参考基因组物种转录本拼接较短、信息不完整的难题,实现有参考基因组物种可变剪切及融合基因等结构变异研究。作为转录组研究的一大利器,自2016年高粱[1]和玉米[2]两篇Iso-Seq文章高调亮相Nature Communications起,Iso-Seq的身影就经常活跃在在各大期刊。那么,Iso-Seq在动植物中又有什么常见的应用方向呢?
一、构建/提升参考基因集/转录本集
基于三代长读长测序技术,无需打断mRNA分子,可直接对反转录的全长cDNA进行测序。因此Iso-Seq可直接获得全长转录本信息,无需组装,最大限度的保证了转录本测序结果的准确性。对于无参考基因组的物种,Iso-Seq可以构建高质量的参考基因集/转录本集,为后续物种的功能研究奠定基础。对于有参考基因组的物种,Iso-Seq可补充已注释基因组的基因注释结果,发现新的基因和转录本,完善参考基因集/转录本集。
举个栗子:
阿拉伯岩芥(Aethionema arabicum)是十字花科植物性状进化研究的重要模式植物,该物种的基因组最近有了更新,但其基因注释文件并未更新。2021年1月,马尔堡大学的研究者对阿拉伯岩芥进行三代Iso-Seq和二代RNA-seq测序研究[3],并对对阿拉伯岩芥的基因注释进行了更新,使得其BUSCO完整性提高了11.6%,鉴定了5606个新基因,提升了含有完整ORF的基因检出数目(3000+),并有效改善了部分基因的错误注释(5000+)。该文章利用Iso-Seq和RNA-seq显著提升了阿拉伯岩芥的基因注释,并构建了完整的转录本信息,有助于后续的功能和演化基因组学研究。
阿拉伯岩芥不同基因组注释版本情况(图片引自文献[3])二、研究胁迫/抗逆调控机制
生物胁迫和非生物胁迫会影响动植物的生理、发育、生长、改变Pre-mRNA的剪接及影响基因的表达。通过Iso-Seq可挖掘胁迫相关新的应激和/或组织特异性异构体,结合RNA-seq可筛选胁迫/抗逆相关的差异表达基因/转录本,从而增加对胁迫适应和耐受相关的复杂调控网络的理解。
举个栗子:
水稻丰富的自然变异是研究胁迫耐受性,进行育种研究的重要基因资源。2020年10月,马克斯·普朗克植物分子生理研究所的研究者对不同品种水稻正常及干旱和高温胁迫的样本进行Iso-Seq和RNA-seq研究[4],以探究参与非生物胁迫的新基因和新转录本。研究者采集了3个不同亚种的共10个水稻品种样本分别进行Iso-Seq研究,构建了多个品种的高质量转录组图谱。与日本晴参考转录组相比,所有鉴定的转录本中约有40%是新转录本。以抗旱耐高温的水稻品种N22为研究对象,分析干旱和热胁迫下差异表达的基因,筛选到的差异表达基因有56个是品种特异性的基因。结果表明Iso-Seq有助于识别作物改良计划中的新候选基因。
耐旱耐高温水稻品种N22特异转录本鉴定(图片引自文献[4])三、揭示生长发育调控机制
由不同启动子使用、可变剪接和聚腺苷酸化位点的替代使用产生的 RNA 的异质性显著增加了转录组库的复杂性和产生蛋白质组的可塑性。越来越多的证据表明不同转录本异构体的选择及其调节在真核生物发育、组织形成和应对环境压力反应中发挥着重要作用。此外,基因的复杂时空表达对生长发育的调节至关重要。定义转录组随时间的动态变化是了解动植物生长发育调节过程的重要一步。Iso-seq能够更准确地识别不同时期的转录本结构变化,结合RNA-seq可研究不同时期的基因/转录本的表达变化,对不同发育时期转录组的动态变化研究有助于阐明生物生长发育的调控机理。
举个栗子:
椰子织蛾(Opisina arenosella)是危害椰子树的主要害虫之一。2021年2月,西北师范大学的研究者对椰子织蛾不同发育阶段的样本进行Iso-Seq和RNA-seq研究[5],构建了椰子织蛾的转录本集,并探究了不同发育阶段转录组的动态表达变化。研究表明,不同发育阶段的基因表达谱存在显著差异,如幼虫和蛹的差异表达基因主要与酶代谢、解毒和激素合成有关,表明昆虫的新陈代谢和消化能力可能是决定化蛹成功的关键因素之一。该研究为探索椰子织蛾的基因功能提供了资源和信息,并为理解发育过程中基因表达变化提供理论基础。
四、 探究生物合成/代谢机制
用于研究生物活性化合物的生物合成途径的第一个步骤就是获得基因的核苷酸序列。全基因组测序和组装,结合转录组数据是系统表征基因模型的理想方式。以往利用二代测序技术对生物的重要次级代谢产物生物合成的研究限制了对剪接亚型的准确预测,Iso-Seq可鉴定完整转录本,对重要代谢通路的关键基因/转录本进行深入探究。
幼虫与蛹差异表达基因的KEGG富集分析(图片引自文献[5])举个栗子:
分蘖是甘蔗产量的重要组成部分,但甘蔗分蘖发育的分子机制尚不清楚。2021年5月,广西农业科学院的研究者对甘蔗发育中的叶片和分蘖芽样本进行Iso-Seq研究[6],并对甘蔗分蘖三个发育阶段(T0、T1和T2)的分蘖芽样本进行RNA-seq研究,以揭示甘蔗分蘖发育的关键基因和生物学途径。结果在甘蔗分蘖发育过程中发现了两条重要的生物学途径:固碳途径和亚油酸代谢途径,其中甘蔗幼苗分蘖发育过程中固碳途径中的两个关键基因家族(丙酮酸磷酸双激酶ppdk和磷酸烯醇式丙酮酸羧化酶ppc)显著上调,促进了甘蔗幼苗的代谢过程和分蘖生长。该研究发现了参与甘蔗分蘖发育过程的重要基因,为甘蔗分蘖生长及其调控机制研究奠定基础。
甘蔗分蘖过程固碳途径及基因差异表达情况(图片引自文献[6])参考文献
1. Abdel-Ghany SE, Hamilton M, Jacobi JL, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature Communications, 2016, 7:11706.
2. Wang B, Tseng E, Regulski M, et al. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing[J]. Nature Communications, 2016, 7:11708.
3. Fernandez-Pozo N, Metz T, Chandler JO, et al. Aethionema arabicum genome annotation using PacBio full-length transcripts provides a valuable resource for seed dormancy and Brassicaceae evolution research[J]. The Plant Journal, 2021, 106(1):275-293.
4. Schaarschmidt S, Fischer A, Lawas LMF, et al. Utilizing PacBio Iso-Seq for novel transcript and gene discovery of abiotic stress responses in Oryza sativa L[J]. International Journal of Molecular Sciences. 2020, 21(21):8148.
5. Xu D, Yang H, Zhuo Z, et al. Characterization and analysis of the transcriptome in Opisina arenosella from different developmental stages using single-molecule real-time transcript sequencing and RNA-seq[J]. International Journal of Biological Macromolecules. 2021, 169:216-227.
6. Yan H, Zhou H, Luo H, et al. Characterization of full-length transcriptome inSaccharum officinarum and molecular insights into tiller development[J]. BMC Plant Biology. 2021, 21(1):228.