NGSLinux比较基因组

构建一个近乎完整的植物基因组

2021-02-02  本文已影响0人  生物信息与育种

前言

植物基因组大小跨越几个数量级,倍性和杂合性变化,以及新旧基因组转座子变化等带来组装挑战。三代和物理图谱提供了新机会,单倍型定相、结构变异分析、从头泛基因组研究成为新兴组装热点。

植物基因组发展:

在过去20年种,有400多个植物基因组已发表,包括333个被子植物,15个非被子植物、2个轮藻和44个绿藻。

可查阅:
https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes

1. 单分子长度长测序

PacBio通过CCS产生HiFi 15 kb reads的方法准确率高达99.8%,解决了错误率问题,但每条read成本高了近5倍。

基因组测序的发展,在基因组完整度上已经有了很大提升。


image.png

2. 长度长基因组组装的错误倾向

新算法的设计目的:correct, overlap, and polish long reads with high error-rates。
算法随计算设计、速度、内存使用、复杂基因组利用而变化。

组装的草图有误差,必须用高覆盖度的长读长或短读长polish,一般大于三次可达到>99.6%的准确性。

PacBio CCS HiFi软件:Peregrine

3. 物理图谱技术

4. 解决复杂植物基因组

如下图,两条染色体组装时定相,杂合基因组phasing有如下方法:

5. 利用组装图

组装经典指标是N50,或者最短序列长度大于组装的50%,方法过于简单。
利用组装图可以可视化复杂度和邻接contig的overlap。

当参考基因组被泛基因组取代时,基因组图论将是代表复杂基因组更好的方法。

挑战和展望

挑战:

展望:

参考文献:Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.

上一篇下一篇

猜你喜欢

热点阅读