基因组组装组装

Flye | 三代测序数据组装软件①

2022-07-05  本文已影响0人  生信百宝箱

Flye软件简介

Flye是美国加利福尼亚大学圣迭戈分校开发的针对三代测序数据的基因组de novo组装的生信软件,于2019年发表在Nature Biotechnology上,该软件支持Pacbio和Nanopore数据,同时也可以对宏基因组和质粒进行组装。

Flye官网:

https://github.com/fenderglass/Flye

Flye软件安装:

#conda安装flye
conda install -y flye
#编译安装flye
wget https://github.com/fenderglass/Flye/archive/refs/heads/flye.zip
#解压文件
unzip flye.zip
#安装软件
cd Flye-flye
make
#将软件添加到环境变量(根据自己的安装路径进行添加)
vim ~/.bashrc
PATH=/opt/biosoft/GENOME/Flye-flye/bin/:$PATH
source ~/.bashrc

Flye示例数据下载:

#pacbio示例数据下载
wget \
-O pacbio.sra \
https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494912/SRR8494912  
#nanopore示例数据下载
wget \
-O nanopore.sra \
https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494939/SRR8494939

Flye示例数据处理(sra转fastq):

#pacbio示例数据处理(sra转fastq)
fastq-dump --gzip --split-3 pacbio.sra
#nanopore示例数据处理(sra转fastq)
fastq-dump --gzip --split-3 nanopore.sra

fastq-dump会将sra格式转化成fastq格式,同时--gzip参数会对fastq进行压缩,示例pacbio.sra最终会被转化为pacbio.fastq.gz

Flye常用选项参数:

--pacbio-raw :设置 pacbio 原始数据所在路径
--pacbio-corr :设置纠错后 pacbio 数据所在路径
--nano-raw :设置 nanopore 原始数据所在路径
--nano-corr :设置纠错后的 nanopore 数据所在路径
--genome-size :预估基因组大小,评估覆盖深度
--out-dir :输出结果文件路径
--threads :线程数
--min-overlap :最小 overlap 连接大小

PS:校正需要的时间较长,且效果也不明显,一般建议直接输入原始数据

Flye使用案例:

flye \
--pacbio-raw pacbio.fastq.gz \
--genome-size 5.4m \
--out-dir pacbio_flye_out

Flye主要结果输出文件:

00-assembly #构建基因组草图
10-consensus #基于基因组草图对数据进行纠错
20-repeat #对重复序列进行处理
30-contigger #构建contig
40-polishing #对结果进行校准
assembly.fasta #最终组装结果文件,用于下游分析
上一篇下一篇

猜你喜欢

热点阅读