三代测序技术

「基因组组装」使用Canu2.0版本的需要注意一个重要改动

2020-05-15  本文已影响0人  xuzhougeng

在GitHub上向作者请教这个问题后,作者的答复是:旧版Canu其实没有真正的检测到bubble,因此contig其实包含着buble,建议后续分析要用purge_dups 处理这些冗余序列

作者的建议

我最早使用的Canu版本是1.6,而现在已经是2.0,以往的改动基本上都是增加一些新功能,提高组装准确性,以及一些默认参数的修改用于提高组装速度,还有就是常规的bug修复。

例如1.8版本的更新日志更改了Nanopore的错误率,提高了10倍左右的组装速度,同时完整地支持了trio-binning

1.8更新

1.9版则是开始PacBio的HiFi数据,同时极大的提高了相互比对的速度

1.9更新

对于这些修改,我们都可以直接将组装得到的contig用于后续的分析。而2.0版本的更新则把我“坑”了

2.0做了许多的优化用来保证contig组装更长更准确,其中有一个就是在contig构建期间会检测bubbles, 防止他们打断杂合基因组

2.0更新

于是在我最近组装一个新的物种的时候,就发现染色体明显偏大,我对此很不解。直到我用新的Canu组装该物种的时候发现,前后两次组装结果中在bubbles这一栏中有明显差别。1.8版本是0,2.0版本则是136,约6M基因组大小。

1.8版本 2.0版本

我觉得这可能是个例,于是我查看了之前所有组装物种的日志,发现bubble这一栏都是0(即便是杂合基因组)。

这意味着,我们用2.0版本装的基因组不能无脑的用于下游的HiC,而是需要先把bubble这部分序列给过滤掉,不然你的基因组是偏离实际值。

上一篇下一篇

猜你喜欢

热点阅读