泛基因组新时代之图形基因组详解
转载自-诺禾致源-知乎
从提出人类基因组计划发展至今,已经超过了20年。目前,一个物种参考基因组的构建,往往是选取一个样本,以线性排列的方式进行呈现,但单个个体遗传信息是具有局限性的,研究者一直都在寻求能够完全包含一个物种所有的遗传变异信息,并使后续的基因组分析更有效率的参考基因组形式,因此泛基因组研究开始走进了研究者的视野。随着测序技术的发展,成本也随之降低,使泛基因组研究更普遍,越来越多的物种开始使用大样本量进行泛基因组的构建。泛基因组构建也有发展多种构建形式,相较于线性基因组或、多个线性基因组的泛基因组形式,图形基因组是近几年提出的概念,今天小编就给大家介绍一下何为图形基因组。
image.png图1 参考基因组构建的趋势和策略[1]
图形基因组构建泛基因组的典型代表案例
文献1 Pan-genome analysis of 33 genetically diverse riceaccessions reveals hidden genomic variations
发表期刊 Cell
构建形式:
第一步:构建多个个体基因组:对31个水稻样本进行Denovo组装,并进行了染色体挂载,得到了31个高质量的基因组,并从各方面对基因组进行了评估,特别是其中30个基因组达到了LAI评估值>20的“gold standard”级别,仅一个是“reference”级别。
第二步:构建图形基因组:对33个水稻(31个测序样本、日本晴和蜀恢498)进行共线性分析,将其他32个基因组的基因逐一比对到日本晴的基因集上,将无共线性的基因添加至泛基因组基因集中,直到来自32个基因组的所有基因都已添加到泛基因组中。最终获得含有了66636个蛋白编码基因的栽培种水稻泛基因组。
基因组指标:基因组序列平均长度 385.8 Mbp,contig N50平均值12.88 Mbp,Hi-C平均挂载率99.3%,BUSCO平均值98.5%。
组装策略:使用Canu对三代数据PacBio reads进行纠错及组装,并用HERA提升至super contig水平,最后使用Mummer软件将super contig比对参考基因组将其组装至pseudo-chromosomes水平。
image.png图2 水稻泛基因组分析[2]
文献2 Pan-Genome of Wild and Cultivated Soybeans
发表期刊 Cell
构建形式:
第一步:构建多个个体基因组:对26个具有代表性大豆样本进行了Denovo组装,并挂载到了染色体级别,从各方面验证了泛基因组的组装质量及注释质量。
第二步:构建图形基因组:将26个测序样本加上了已报道的Wm82和W05的基因组序列锚定到了ZH13的基因组上,以此来构建图形基因组。
基因组指标:基因组序列平均长度1059.8 Mbp,contig N50平均值22.6 Mbp,Hi-C平均挂载率99%,Illumina数据比对到基因组的平均mapping率为99.4%,BUSCO平均值95.6%。
组装策略:使用Canu将PacBio reads组装到contig水平,用illumina数据进行纠错,使用BioNano数据将组装成super-scaffold,然后使用HERA将PacBio contigs和基于BioNano的物理图谱结合生成PacBio-BioNano sacffold,最后使用3D-Dna和Juicer挂载至染色体水平。
image.png<figcaption style="color: rgb(153, 153, 153); font-size: 0.9em; line-height: 1.5; margin-top: calc(0.666667em); padding: 0px 1em; text-align: center;">图3大豆泛基因组分析[3]</figcaption>
文献 3 Extensive variation within the pan-genome of cultivated and wild sorghum
发表期刊 Nature Plants
构建形式:
第一步:构建多个个体基因组:选取了13个高粱样本进行Denovo从头组装,其中2个样本进行了三代PacBio 80X的高深度测序,其余样本则是使用三代(较低深度三代PacBio测序,大约40X)、二代数据混合组装的策略,且均挂载至了染色体水平(其中四个有hic数据支持,其他9个根据共线性提升至染色体水平)。
第二步:构建图形基因组:将16个基因组的预测基因模型使用OrthoMCL聚类成基因家族,使用MCScan对16个基因组进行共线性分析,并对其进行分类(Core gene families、Shell gene、Cloud gene),最后以BTx623 基因组为参考,使用 minigraph 构建了图形泛基因组。
基因组指标:两个高深度测序基因组平均长度720.6Mbp,平均N50 68.3Mbp,BUSCO平均98%,Hi-C平均挂载率99%。
组装策略:使用Canu对PacBio reads进行纠错然后使用WTDBG进行组装,基于Illumina数据使用Pilon进行对组装contig进行纠错,最后使用 LACHESIS将基因组挂载至染色体水平。
image.png
图4 高粱泛基因组分析[4]</figcaption>
image.png图5 高粱泛基因组图第 5 号染色体上 LGS1 区域内的变化[4]
图形基因组的出现解决了线性基因组无法有效鉴定大片段的插入、缺失、拷贝数等变异类型的问题,同时能够存储、展示类群中不同个体的遗传变异信息,从而真正的代表一个类群的遗传信息,为研究作物改良,基因育种、物种进化等方面提供了较大的推动力。
image.png<figcaption style="color: rgb(153, 153, 153); font-size: 0.9em; line-height: 1.5; margin-top: calc(0.666667em); padding: 0px 1em; text-align: center;">图6 基于多参考基因组的图形基因组为基因组学研究提供新指南[5]</figcaption>
通过以上案例可以总结构建图形基因组的基本步骤:
1需要选择目标样本(多个)进行测序
2对每个个体进行单独Denovo组装
3选定一个个体的高质量基因组(已发表且界内认可度较高)为主,结合组装的个体基因组,进行图形泛基因组的构建。
组装策略推荐:
1组装物种样本个数推荐:10-40个,需要具有一定代表性。
2测序深度策略推荐:Nanopore(测序80X以上),PacBio (Clr 80X以上,CCS 30X以上)。
3组装策略推荐:
(1)Nanopore测序数据使用CANU对数据进行纠错,WTDBG进行组装。
(2)PacBio Clr模式数据使用Falcon组装,CCS模式使用Hifiasm组装。
image.png诺禾致源动植物板块对于泛基因组相关研究具有丰富的项目经验,同时在泛基因组研究方向也合作发表了多篇文献,相信在图形基因组时代,也能为您提供专业的测序及技术支持。
合作泛基因组文章题目 | 期刊 | 物种 | 发表时间 |
---|---|---|---|
Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus | Nature Plants | 油菜 | 2020.01 |
Genomic analyses of primitive, wild and cultivated citrus provide insights into asexual reproduction | Nature Genetics | 柑橘 | 2017.04 |
Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple de novo assemblies | Genome Research | 猪 | 2016.09 |
De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits | Nature Biotechnology | 大豆 | 2014.09 |
泛基因组文章题目 | 期刊 | 物种 | 发表时间 |
Pan-genome analysis of 33 genetically diverse riceaccessions reveals hidden genomic variations | Cell | 水稻 | 2021.05 |
Extensive variation within the pan-genome of cultivated and wild sorghum | Nature Plants | 高粱 | 2021.05 |
Impacts of allopolyploidization andstructural variation on intraspecificdiversification inBrassica rapa | Genome Biology | 白菜 | 2021.05 |
Cotton pan-genome retrieves the lost sequences and genes during domestication and selection | Genome Biology | 棉花 | 2021.04 |
The barley pan-genome reveals the hidden legacy of mutation breeding | Nature | 大麦 | 2020.11 |
Pan-Genome of Wild and Cultivated Soybeans | cell | 大豆 | 2020.06 |
The tomato pan-genome uncovers new genes anda rare allele regulating fruit flavor | Nature Genetics | 番茄 | 2019.05 |
参考文献
[1] Y Liu, Tian Z . From one linear genome to a graph-based pan-genome: a new era for genomics[J]. Science China Life Sciences, 2020:1-4.
[2] Qin P , Lu H , Du H , et al. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations[J]. Cell, 2021.
[3] Liu Y , Du H , Li P , et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020, 182(1).
[4]Tao Y , Luo H , J Xu, et al. Extensive variation within the pan-genome of cultivated and wild sorghum[J]. Nature Plants.
[5] Qin P , Lu H , Du H , et al. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations[J]. Cell, 2021.
编辑于 2021-08-12 18:03