FLASH 合并双端测序reads

FLASH (Fast Length Adjustment of SHort reads) 是一个快速且精确的双端测序reads融合工具;FLASH被设计的目的是用来融合原始DNA片段长度小于两倍读长的双端测序数据(需要融合的双端测序reads之间必需要存在overlap)。Merged reads相比于单端read长,有助于基因组组装和基因组分析。FLASH 也适用于 RNA-seq数据。
#1. FLASH简介
#1.1 FLASH 的缺陷
- FLASH 不能用于没有overlap的双端测序reads;
- FLASH 不适用于有大量的Indel的数据,例如Sanger测序数据;Illumina 最适用于FLASH。
#1.2 FLASH原理
简单说,FLASH 会考虑成对reads间最短长度或大于最短长度的所有可能的overlap,最终选取overlap中错配率最小的情况进行融合。
#2. 安装
FLASH 可在GNU/Linux 、Mac OS X和windows上运行;FLASH 依赖于C标准库和 zlib。
安装FLASH需要经过以下几个步骤:
$ wget https://sourceforge.net/projects/flashpage/files/FLASH-1.2.11.tar.gz
$ tar xzf FLASH-1.2.11.tar.gz
$ cd FLASH-1.2.11
$ make
#3. 使用
#3.1 线程设置
FLASH 默认使用多线程,默认和处理器相同数目的线程用于reads融合,可以通过参数-t(--threads=1)自定义线程数;并且最多2个线程用于输入和最多3个线程用于输出。
使用多线程时,融合成功和未成功的reads输出的顺序不会与输入reads顺序一致。如果你想改变这种情况,只需要设定--threads=1。
#3.2 准确度
基于默认参数,对于测序错误率低于1% 的reads,FLASH 可以准确处理90%的read pairs;错误率达到2%时,98% 的read pairs可以被正确处理。
No error | 1% error rate | 2% error rate | 3% error rate | 5% error rate | |
---|---|---|---|---|---|
default parameters | 99.73% | 99.68% | 98.43% | 94.76% | 77.91% |
more aggressive parameters | 99.73% | 99.68% | 99.06% | 98.30% | 93.65% |
使用GAGE 数据测试:
647,052 pairs of 101bp long reads from Staphylococcus aureus | 90.77% |
---|---|
18,252,400 pairs of 101bp long reads from human | 91.02% |
#3.3 命令
flash --min-overlap 10 --max-mismatch-density 0.25 -t 6 R1.fastq R2.fastq --output-prefix=Flash --output-directory=./flash >flash.log
#4. 参考
FLASH: Fast length adjustment of short reads to improve genome assemblies. T. Magoc and S. Salzberg. Bioinformatics 27:21 (2011), 2957-63.
FLASH2 github
FLASH