生物信息学泛基因组_从头学习_

泛基因组新时代之图形基因组详解

2023-02-19  本文已影响0人  陈光辉_山东花生

转载自-诺禾致源-知乎


从提出人类基因组计划发展至今,已经超过了20年。目前,一个物种参考基因组的构建,往往是选取一个样本,以线性排列的方式进行呈现,但单个个体遗传信息是具有局限性的,研究者一直都在寻求能够完全包含一个物种所有的遗传变异信息,并使后续的基因组分析更有效率的参考基因组形式,因此泛基因组研究开始走进了研究者的视野。随着测序技术的发展,成本也随之降低,使泛基因组研究更普遍,越来越多的物种开始使用大样本量进行泛基因组的构建。泛基因组构建也有发展多种构建形式,相较于线性基因组或、多个线性基因组的泛基因组形式,图形基因组是近几年提出的概念,今天小编就给大家介绍一下何为图形基因组。

image.png

图1 参考基因组构建的趋势和策略[1]

图形基因组构建泛基因组的典型代表案例

文献1 Pan-genome analysis of 33 genetically diverse riceaccessions reveals hidden genomic variations

发表期刊 Cell

构建形式:

第一步:构建多个个体基因组:对31个水稻样本进行Denovo组装,并进行了染色体挂载,得到了31个高质量的基因组,并从各方面对基因组进行了评估,特别是其中30个基因组达到了LAI评估值>20的“gold standard”级别,仅一个是“reference”级别。

第二步:构建图形基因组:对33个水稻(31个测序样本、日本晴和蜀恢498)进行共线性分析,将其他32个基因组的基因逐一比对到日本晴的基因集上,将无共线性的基因添加至泛基因组基因集中,直到来自32个基因组的所有基因都已添加到泛基因组中。最终获得含有了66636个蛋白编码基因的栽培种水稻泛基因组。

基因组指标:基因组序列平均长度 385.8 Mbp,contig N50平均值12.88 Mbp,Hi-C平均挂载率99.3%,BUSCO平均值98.5%。

组装策略:使用Canu对三代数据PacBio reads进行纠错及组装,并用HERA提升至super contig水平,最后使用Mummer软件将super contig比对参考基因组将其组装至pseudo-chromosomes水平。

image.png

图2 水稻泛基因组分析[2]

文献2 Pan-Genome of Wild and Cultivated Soybeans

发表期刊 Cell

构建形式:

第一步:构建多个个体基因组:对26个具有代表性大豆样本进行了Denovo组装,并挂载到了染色体级别,从各方面验证了泛基因组的组装质量及注释质量。

第二步:构建图形基因组:将26个测序样本加上了已报道的Wm82和W05的基因组序列锚定到了ZH13的基因组上,以此来构建图形基因组。

基因组指标:基因组序列平均长度1059.8 Mbp,contig N50平均值22.6 Mbp,Hi-C平均挂载率99%,Illumina数据比对到基因组的平均mapping率为99.4%,BUSCO平均值95.6%。

组装策略:使用Canu将PacBio reads组装到contig水平,用illumina数据进行纠错,使用BioNano数据将组装成super-scaffold,然后使用HERA将PacBio contigs和基于BioNano的物理图谱结合生成PacBio-BioNano sacffold,最后使用3D-Dna和Juicer挂载至染色体水平。

image.png

<figcaption style="color: rgb(153, 153, 153); font-size: 0.9em; line-height: 1.5; margin-top: calc(0.666667em); padding: 0px 1em; text-align: center;">图3大豆泛基因组分析[3]</figcaption>

文献 3 Extensive variation within the pan-genome of cultivated and wild sorghum

发表期刊 Nature Plants

构建形式:

第一步:构建多个个体基因组:选取了13个高粱样本进行Denovo从头组装,其中2个样本进行了三代PacBio 80X的高深度测序,其余样本则是使用三代(较低深度三代PacBio测序,大约40X)、二代数据混合组装的策略,且均挂载至了染色体水平(其中四个有hic数据支持,其他9个根据共线性提升至染色体水平)。

第二步:构建图形基因组:将16个基因组的预测基因模型使用OrthoMCL聚类成基因家族,使用MCScan对16个基因组进行共线性分析,并对其进行分类(Core gene families、Shell gene、Cloud gene),最后以BTx623 基因组为参考,使用 minigraph 构建了图形泛基因组。

基因组指标:两个高深度测序基因组平均长度720.6Mbp,平均N50 68.3Mbp,BUSCO平均98%,Hi-C平均挂载率99%。

组装策略:使用Canu对PacBio reads进行纠错然后使用WTDBG进行组装,基于Illumina数据使用Pilon进行对组装contig进行纠错,最后使用 LACHESIS将基因组挂载至染色体水平。


image.png

图4 高粱泛基因组分析[4]</figcaption>

image.png

图5 高粱泛基因组图第 5 号染色体上 LGS1 区域内的变化[4]

图形基因组的出现解决了线性基因组无法有效鉴定大片段的插入、缺失、拷贝数等变异类型的问题,同时能够存储、展示类群中不同个体的遗传变异信息,从而真正的代表一个类群的遗传信息,为研究作物改良,基因育种、物种进化等方面提供了较大的推动力。

image.png

<figcaption style="color: rgb(153, 153, 153); font-size: 0.9em; line-height: 1.5; margin-top: calc(0.666667em); padding: 0px 1em; text-align: center;">图6 基于多参考基因组的图形基因组为基因组学研究提供新指南[5]</figcaption>

通过以上案例可以总结构建图形基因组的基本步骤:

1需要选择目标样本(多个)进行测序

2对每个个体进行单独Denovo组装

3选定一个个体的高质量基因组(已发表且界内认可度较高)为主,结合组装的个体基因组,进行图形泛基因组的构建。

组装策略推荐:

1组装物种样本个数推荐:10-40个,需要具有一定代表性。

2测序深度策略推荐:Nanopore(测序80X以上),PacBio (Clr 80X以上,CCS 30X以上)。

3组装策略推荐:

(1)Nanopore测序数据使用CANU对数据进行纠错,WTDBG进行组装。

(2)PacBio Clr模式数据使用Falcon组装,CCS模式使用Hifiasm组装。

image.png

诺禾致源动植物板块对于泛基因组相关研究具有丰富的项目经验,同时在泛基因组研究方向也合作发表了多篇文献,相信在图形基因组时代,也能为您提供专业的测序及技术支持。

合作泛基因组文章题目 期刊 物种 发表时间
Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus Nature Plants 油菜 2020.01
Genomic analyses of primitive, wild and cultivated citrus provide insights into asexual reproduction Nature Genetics 柑橘 2017.04
Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple de novo assemblies Genome Research 2016.09
De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits Nature Biotechnology 大豆 2014.09
泛基因组文章题目 期刊 物种 发表时间
Pan-genome analysis of 33 genetically diverse riceaccessions reveals hidden genomic variations Cell 水稻 2021.05
Extensive variation within the pan-genome of cultivated and wild sorghum Nature Plants 高粱 2021.05
Impacts of allopolyploidization andstructural variation on intraspecificdiversification inBrassica rapa Genome Biology 白菜 2021.05
Cotton pan-genome retrieves the lost sequences and genes during domestication and selection Genome Biology 棉花 2021.04
The barley pan-genome reveals the hidden legacy of mutation breeding Nature 大麦 2020.11
Pan-Genome of Wild and Cultivated Soybeans cell 大豆 2020.06
The tomato pan-genome uncovers new genes anda rare allele regulating fruit flavor Nature Genetics 番茄 2019.05

参考文献

[1] Y Liu, Tian Z . From one linear genome to a graph-based pan-genome: a new era for genomics[J]. Science China Life Sciences, 2020:1-4.

[2] Qin P , Lu H , Du H , et al. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations[J]. Cell, 2021.

[3] Liu Y , Du H , Li P , et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020, 182(1).

[4]Tao Y , Luo H , J Xu, et al. Extensive variation within the pan-genome of cultivated and wild sorghum[J]. Nature Plants.

[5] Qin P , Lu H , Du H , et al. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations[J]. Cell, 2021.

编辑于 2021-08-12 18:03

上一篇下一篇

猜你喜欢

热点阅读