三代测序数据组装(补充)

2023-01-25  本文已影响0人  Bioinfor生信云

nextdenovo

nextdenovo 最初开发用于nanopore 数据拼接,也支持pacbio CLR 和HiFi 数据做输入。软件运行速度较快。

下载地址:https://github.com/Nextomics/NextDenovo

参考脚本

nextDenovo run_nextDenovo.cfg

参考run_nextDenovo.cfg配置

[General]
job_type = local # local, slurm, sge, pbs, lsf本地还是集群
job_prefix = nextDenovo 任务名称
task = all # all, correct, assemble 任务的步骤
rewrite = yes # yes/no
deltmp = yes #删除临时文件
parallel_jobs = 6 #并行任务数
input_type = raw # raw, corrected
read_type = clr # clr, ont, hifi
input_fofn = input.fofn #reads文件列表
workdir = nextdenovo_out

[correct_option]
read_cutoff = 1k
genome_size = 4.6m # 预期基因组大小
pa_correction = 4 #correct步骤并行任务数
sort_options = -m 2g -t 5  #-m 数据量 -t 总线程数
minimap2_options_raw = -t 5 #   总线程数/parallel_jobs
correction_options = -p 5 #  总线程数/pa_correction

[assemble_option]
minimap2_options_cns = -t 5 # -t 总线程数/parallel_jobs
nextgraph_options = -a 1 #输出fasta格式

mecat2

mecat2 是一款拼接pacbio 数据的软件,该软件是基于canu 改写,加速了其中的比对和纠错模块。

下载地址:https://github.com/xiaochuanle/MECAT2

参考脚本

#reads纠错
mecat.pl correct mecat2.cfg

#修剪reads
mecat.pl trim mecat2.cfg

#组装
mecat.pl assemble mecat2.cfg

配置文件示例mecat2.cfg

PROJECT=mecat2test
RAWREADS=./reads.list #输入文件列表
GENOME_SIZE=4600000 #基因组大小
THREADS=6
MIN_READ_LENGTH=5000 #最小的reads长度
CNS_OVLP_OPTIONS="-kmer_size 13"
CNS_PCAN_OPTIONS="-p 100000 -k 100"
CNS_OPTIONS=""
CNS_OUTPUT_COVERAGE=30 #输出的深度
TRIM_OVLP_OPTIONS="-skip_overhang"
TRIM_PM4_OPTIONS="-p 100000 -k 100"
TRIM_LCR_OPTIONS=""
TRIM_SR_OPTIONS=""
ASM_OVLP_OPTIONS=""
FSA_OL_FILTER_OPTIONS="--max_overhang=-1 --min_identity=-1"
FSA_ASSEMBLE_OPTIONS=""
CLEANUP=0

hifiasm

hifiasm 是最新发布的一款专门用于拼接pacbio hifi 数据的软件,推荐用于hifi 数据拼接。

下载地址:https://github.com/chhylp123/hifiasm

参考脚本

hifiasm \
-o hifi.asm \ #输出文件前缀
-t 8 \ #线程数
./hifi.fastq.gz \#输出文件
1>hifiasm.log 2>hifiasm.err #日志文件
将结果文件用awk转为fasta格式

欢迎关注Bioinfor 生信云!

上一篇 下一篇

猜你喜欢

热点阅读