三代校正工具LoRDEC原理
2020-08-30 本文已影响0人
小潤澤
前言
三代长读长测序的主要错误有随机错误和Indel
解决这类问题的思路主要有两个:1.利用三代数据自校正;2.利用二代短读长数据校正三代长读长数据
软件合集:
具体可以点击here进行查看
LoRDEC
LoRDEC这款软件是2014年发表在bioinformatics的一款软件,LoRDEC: accurate and efficient long read error correction
它是一款利用二代短读长数据校正三代长读长数据的软件
1.二代数据错误
二代数据的错误体现在读长若干碱基发生错误,那么如果你的测序深度足够,那么这类错误很容易被校正
当然还有插入和缺失的错误,可以参考《A survey of error-correction methods for next-generation sequencing》
2.三代数据错误
正如开头所述,三代长读长测序的主要错误有随机错误和Indel
3.原理
通常来说,由于二代测序成本低,可以测取一定深度的数据,那么该软件的原理是将二代的读段分解成k-mer,利用德布鲁因图对三代数据进行校正
下图是k=3,3-mer:
那么将二代数据的读段利用德布鲁因图,以3-mer将其分解。我们之前说过,三代长读长测序的主要错误有随机错误和Indel,那么如下图:
我们把易错的区域定义为weak区(图中直线部分),没有错误的区域定义为solid区域(图中矩形部分),那么我们利用二代数据的k-mer依据德布鲁因图对这些weak区域进行校正,从而校正这些随机错误和Indel
如图b,二代数据的k-mer依据德布鲁因图校正三代数据的错误
使用
详细使用方法可以参考其主页“https://gite.lirmm.fr/lordec/lordec-releases/wikis/home”