NGS基因组组装基因组组装

基因组组装项目的十二步建议

2021-02-01  本文已影响0人  生物信息与育种

1. 建立项目团体

多机构合作,数据和利益共享。

2. 收集目标基因组信息

考虑的因素:
基因组大小、倍性、杂合性、GC含量和重复。

数据库查询:
fungi (http://www.zbi.ee/fungalgenomesize)
animals (http://www.genomesize.com)
plants (http://data.kew.org/cvalues)

估计:
流式细胞仪和kmer频率分布(建议两种都用)。

3. 设计最佳实验流程

高质量染色体水平的参考基因组是关键。
质控:reads长度、错误率、深度、覆盖度、文库等。

有钱:PacBio/ONT + Hi-C
没钱:Illumina/10X GC(genomics chrominum) + Hi-C

从头组装:一般是完全denovo。
参考基因组辅助:利用近缘物种作为参考和指导进行组装,该方法对数据和计算量较小,但是现有参考基因组可能有错误和重排。

目的:构建一致的单倍型或定相单倍型的染色体水平组装。一般的组装是将2条序列整合为1个单倍型,因此不能得到二倍体信息。

选择合适的工具和流程:考虑组装的质量和连续性,包括速度和敏感性。

三代组装工具网站:
LRS-DB https://long-read-tools.org/

常用的组装工具软件:


image.png

4. 选择最佳测序平台和准备文库

文库制备的两个考虑:目标基因组大小、测序样本数。

reads: 短(Illumina, 454, SOLiD, MGI, Ion Torrent),长(ONT and PacBio)或混合(hybrid) read

5. 选择最佳DNA来源和提取方法

不含杂质。
最低量要求:
Illumina 和 10xGC > 3 ng, PacBio > 20 μg, ONT > 1 μg, BioNano > 200 ng, Dovetail > 5 μg 。
三代平均DNA长度>25 kb。
使用核与细胞器DNA比率更高的组织。
纯化DNA的测量/定量可使用分光光度法和基于荧光的方法。

6. 检查计算资源与要求

数据量、基因组大小、杂合率和倍性等对内存
需求、CPU数量和计算成本成几何增加。
可选择云计算合理分配。

7. 选择最佳计算设计和流程

三种选择:
(1)最大化内部员工或协作
(2)从服务外包提供者
(3)模拟具有不同设置的数据

8. 基因组组装

推荐的基因组组装和注释流程图:


image.png

强烈建议使用BioNano和Hi-C数据来达到染色体级组装,因为这两种方法可通过验证初始组装的完整性,纠正方向错误,排序scaffolds来完善结果。

9. 在注释前检查组装质量

在鸟枪法时代,denovo依赖于于算法和试验设计。reads长度、文库大小、reads准确性和基因组复杂性等决定了组装的准确性和连续性。

质量评估:

三个最重要的指标:连续性、准确性、完整性

方法:三代/10XGC,BioNano,Hi-C数据;软件LR_Gapcloser。

10. 基因组注释

注释内容:

注释的方法:

结合比对EST、RNAseq、蛋白序列作为外部基因组组装证据。

结合方法和结果(尤其是MAKER,BRAKER和String-Tie)可以有效地提高注释预测的数量和准确性(尤其是对孤儿基因和其他年轻基因)。

功能注释GO等。

在线基因组注释工具:

image.png

命令行注释工具:

image.png
image.png

非编码RNA注释:

image.png

重复序列注释:

image.png

11. 建立一种可查询和可共享的输出格式

公共数据库 or 自建数据库?

12. 分发社区来优化组装和注释

不同版本软件结果不同,为确保稳定,数据可重复,需持续维护和更新。

植物社区示例:
https://nbenth.com/annotator/index,
https://solgenomics.net
https://www.helmholtz-muenchen.de/pgsb

动物社区示例:
http://www.slimsuite.unsw.edu.au/servers/apollo.php
https://bovinegenome.elsiklab.missouri.edu
http://www.gmgi.org/genomics-fish-shellfish
https://www.sanger.ac.uk/science/data/vertebrate-genomes-sequencing

对于初学者的基因组组装和注释流程的建议

不建议纯二代组装。
纯三代或混合组装方法:


image.png

此文太多废话,慎读~~~

文献来源: Hyungtaek JungID et al. Twelve quick steps for genome assembly and annotation in the classroom. PLoS Comput Biol. 2020 Nov 12;16(11):e1008325.

上一篇下一篇

猜你喜欢

热点阅读