三代测序专题二:NGS数据要不要?
2022-04-25 本文已影响0人
凌恩生物
作者观点
1.推荐使用PacBio+NGS策略组装基因组;
2.牢记:几乎所有测序公司的生物学水平都很low,请用生物专业的眼光查看结果,别被所谓的技术专家忽悠。
上述对话,我们每周都会碰到若干起。
(1)那到底是否需要NGS纠错呢?
(2)怎么看结果是否可靠?
一、文献证据
先看NG神作,利用Pacbio+BioNano+Hi-C+Illumina多层级的策略,组装了一只山羊(Capra hircus)的基因组。注意最后第二步仍然使用NGS数据进行校正和纠错!
组装策略及组装结果二、凌恩真实数据——神作距离我们太远
我们使用真实项目数据解剖其中的奥秘。为了论证方便,我们使用两株细菌基因组数据展开研究。
1、数据与组装状态
2、全局共线性
下图可以看到,全局共线性非常好。
3、细节1:微共线性
随机挑选同源基因看比对结果:
可以看到,每个基因对中存在多处碱基变异,到底该信谁?
只能依靠NCBI基因注释或者 PCR Sanger 测序结果。
4、细节2:基因数量(RAST预测)
生物学常识:细菌基因组的基因密度为1个/kb。
单纯 PacBio 组装结果很明显存在异常,基因数量显著增加的原因在于基因组存在 大量SNP 和 Indel,导致基因结构被破坏。一个完整的基因很有可能被预测成2个或者更多,导致基因数量明显上升。