组装基因组研究

Hi-C辅助组装问题盘点

2021-01-07  本文已影响0人  生信阿拉丁

作者:Snail
编辑:angelica

Hi-C辅助组装技术是通过捕获染色体DNA的交互关系,根据染色体内部互作频率显著高于染色体间互作频率,同时,在同一条染色体上互作频率随着互作距离的增加而减少的原理,将Contig或者Scaffold聚类到组群,并进一步对组群内的Contig/Scaffold进行排序及定向,实现趋近于染色体水平的基因组挂载。

Hi-C辅助组装作为基因组组装的必备配套技术,接下来一起盘点下相关问题吧~

01 哪些软件可以实现辅助组装?

LACHESIS
优点:经典工具,有效聚类和排序
缺点:不适合多倍体和高杂合度的基因组,不再更新
ALLHiC
优点:适合多倍体和高杂合度的基因组
3D-DNA
优点:纠错功能优秀
缺点:错误率高
SALSA2
优点:外置参数少,简单,精确度高
缺点:出现聚类错误的频率较高,调整难度大

02 如何评价组装结果?

1.辅助组装互作热图
互作热图评估是最常见、也是最直观的一种评估方式。通过将辅助组装的染色体切割成等长Bin(e.g.500 Kb),以两两Bin之间支持的Valid Paired-end Reads数量作为两两Bin之间互作的强度信号,构建热图。

热图坐标表示各染色体的所有Bin,每个点的颜色代表了相应Bin与Bin之间的互作强度。

热图遵循“对角线强互作,沿对角线垂线方向互作逐渐减弱”的判断原则;染色体间互作要明显弱于染色体内互作,且无明显异常互作点的全局热图为优,如下图所示。


2.挂载率
它是一个约定成俗的指标,通常用组装基因组中未挂载的contigs/scaffolds长度/(全部染色体挂载contigs/scaffolds长度+未挂载的contigs/scaffolds长度)来计算。
3.近源物种共线性
采用不同亚种基因组的保守序列或结构评估Hi-C辅助组装染色体的一致性。

此外,还可以根据遗传标记确定的顺序和连锁群分类关系评估Hi-C辅助组装染色体的一致性;或者通过转录本的连续性Unigene (EST)评估,来判断Hi-C辅助组装染色体的准确性。

03 热图中一般会存在哪些异常?

常见的错误类型包括聚类错误,排序和定向错误等。

Q:聚类错误原因有哪些?

A:可能为草图错误或者辅助组装错误。

1.草图错误,错误地将本属于两条染色体的两个 reads 连接在一起造成;

2.辅助组装错误,错误将本属于两条染色体的两个 contigs/scaffolds聚类到一条染色体造成。

解决方法:
(a)草图错误的话可以重新进行组装或者进行草图纠错。对于挂载率而言,草图纠错可能会有不同程度的降低。
(b)组装错误的话,可以调整阈值重新聚类或手动调整。

Q:排序和定向错误原因?
A:组装过程中 contigs/scaffolds之间方向或顺序错误导致远距离互作强度大于近距离的互作强度。
解决方法:
可以进行人工纠错,调整contigs/scaffolds的顺序或方向;有些情况下,排序错误可以通过重新定向得到解决,相应的,定向错误也可以通过重新排序得到解决。

04 参考文献

[1] Burton J N, Adey A, Patwardhan R P, et al..Nature biotechnology, 2013, 31(12): 1119.

[2] Zhang X , Zhang S , Zhao Q , et al..Nature Plants, 2019, 5(5).

[3] Dudchenko O, Batra S S, Omer A D, et al..Science, 2017, 356(6333): 92-95.

[4] Ghurye J, Rhie A, Walenz B P, et al.. bioRxiv, 2018: 261149.

上一篇下一篇

猜你喜欢

热点阅读