利用NextDenovo进行三代组装(四个组装软件结果比较)
2019-12-13 本文已影响0人
多啦A梦的时光机_648d
一:下载安装
下载地址
https://github.com/Nextomics/NextDenovo/releases/download/v2.1-beta.0/NextDenovo.tgz
**INSTALL**
`tar -vxzf NextPolish.tgz && cd NextPolish && make` ## 现在不需要安装了,直接下载解压就可以用了
需要注意的是这个软件运行需要Python2的环境哦。然后安装好了记得加环境。
这次用的是大肠杆菌的一个pacbio数据做的测试。
二:配置文件
1. 配置run.cfg文件
安装好了之后在你的文件夹下面有一个test_data的文件夹,里面有例子,复制过来改一下就ok了。
mkdir ecoli && cd ecoli
cp /path to/NextDenovo/test_data/run.cfg .
vim run.cfg
大致就像这样,里面有些需要改,有些用默认就好。
run.cfg文件
参数解读:
- job_type 设置运行环境,可以使用(local, sge, pbs等)
- seed_cutfiles 如果在集群上运行,建议设置为可用的节点数,同时设置correction_options的-p为各个节点可用的核数,保证每个节点只有一个correction任务,减少运行时的内存和IO。 如果local上运行, 建议设置为总可用的核除以correction_options的-p值.
- parallel_jobs建议设置至少要大于pa_correction。
- blocksize 是将小于seed_cutfiles的数据拆分成的多个文件时单个文件的大小, 此对于10g以内的数据量, 建议设置小于1g, 避免总的任务数小于parallel_jobs的值。
测序数据类型相关: 对于PacBio而言,要修改minimap2_options_中的-x ava-ont为-x ava-pb - 数据量相关参数: read_cutoff = 1k过滤原始数据中低于1k的read,seed_cutoff = 30k则是选择大于30k以上的数据来矫正。关于seed_cutoff的设置,可以通过~/opt/biosoft/NextDenovo/bin/seq_stat来获取参考值,不建议直接使用默认值,因为改值会受到测序深度和测序长度影响,而且一个不合适的值会显著降低组装质量。对于基因组大于200m以上的物种,-d建议默认。
- random_round参数,建议设置20-100. 该参数是设置随机组装参数的数量,nextGraph会基于每一套随机参数做一次组装, 避免默认参数效果不好
———————————————————————————————————————
这里用 seq_stat能够根据自己物种大小和预期用于组装的深度确定seed_cutoff。
seq_stat -g 4.8Mb input.fofn > seq_stat
seq_stat结果
所以我这里的seed_cutoff默认为30K就不行了,因为最初的才18K多。
2. 配置input.fofn文件,就是你的输入文件绝对路径
3. 运行程序
$nextDenovo run.cfg
运行完毕
默认参数结果是存放在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00, 可以将其复制到当前目录,用于后续的分析。
最终在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00的contig长度为4540kb.
但是在01.ctg_graph.sh.work目录下除了ctg_graph00以外,还有其他随机参数的在组装结果。随机参数结果只输出了统计结果,用户如需要输出组装序列,可以修改01_rundir/03.ctg_graph/01.ctg_graph.sh,将里面的-a 0替换成-a 1。
每个目录下都有shell输出,可以挑选基于nextDenovo.sh.e这里面的结果挑选组装指标较好的,再输出序列,比如说比较下N50。
$grep N50 01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph*/*.e
默认情况下,最终组装出20条contig。
全部20条contig结果
最后:
我用了四个性价比比较高的三代组装软件对大肠杆菌pacbio数据做了个比较:
结果比较
可以看到在不考虑速度的情况下,flye的长度是最长的。