三代校正工具LoRDEC原理

2020-08-30 本文已影响0人小潤澤

前言

三代长读长测序的主要错误有随机错误和Indel

解决这类问题的思路主要有两个：1.利用三代数据自校正；2.利用二代短读长数据校正三代长读长数据
软件合集：

具体可以点击here进行查看

LoRDEC这款软件是2014年发表在bioinformatics的一款软件，LoRDEC: accurate and efficient long read error correction
它是一款利用二代短读长数据校正三代长读长数据的软件

二代数据的错误体现在读长若干碱基发生错误，那么如果你的测序深度足够，那么这类错误很容易被校正
当然还有插入和缺失的错误，可以参考《A survey of error-correction methods for next-generation sequencing》

正如开头所述，三代长读长测序的主要错误有随机错误和Indel

通常来说，由于二代测序成本低，可以测取一定深度的数据，那么该软件的原理是将二代的读段分解成k-mer，利用德布鲁因图对三代数据进行校正

下图是k=3，3-mer：

那么将二代数据的读段利用德布鲁因图，以3-mer将其分解。我们之前说过，三代长读长测序的主要错误有随机错误和Indel，那么如下图：

我们把易错的区域定义为weak区（图中直线部分），没有错误的区域定义为solid区域（图中矩形部分），那么我们利用二代数据的k-mer依据德布鲁因图对这些weak区域进行校正，从而校正这些随机错误和Indel
如图b，二代数据的k-mer依据德布鲁因图校正三代数据的错误