基因组『三代测序』

利用NextDenovo进行三代组装(四个组装软件结果比较)

2019-12-13  本文已影响0人  多啦A梦的时光机_648d

一:下载安装

下载地址
https://github.com/Nextomics/NextDenovo/releases/download/v2.1-beta.0/NextDenovo.tgz

**INSTALL**  
`tar -vxzf NextPolish.tgz && cd NextPolish && make`  ## 现在不需要安装了,直接下载解压就可以用了

需要注意的是这个软件运行需要Python2的环境哦。然后安装好了记得加环境。
这次用的是大肠杆菌的一个pacbio数据做的测试。

二:配置文件

1. 配置run.cfg文件

安装好了之后在你的文件夹下面有一个test_data的文件夹,里面有例子,复制过来改一下就ok了。

mkdir ecoli && cd ecoli
cp /path to/NextDenovo/test_data/run.cfg .
vim run.cfg

大致就像这样,里面有些需要改,有些用默认就好。


run.cfg文件

参数解读:

seq_stat -g 4.8Mb input.fofn > seq_stat
seq_stat结果

所以我这里的seed_cutoff默认为30K就不行了,因为最初的才18K多。

2. 配置input.fofn文件,就是你的输入文件绝对路径

3. 运行程序

$nextDenovo run.cfg
运行完毕

默认参数结果是存放在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00, 可以将其复制到当前目录,用于后续的分析。
最终在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00的contig长度为4540kb.
但是在01.ctg_graph.sh.work目录下除了ctg_graph00以外,还有其他随机参数的在组装结果。随机参数结果只输出了统计结果,用户如需要输出组装序列,可以修改01_rundir/03.ctg_graph/01.ctg_graph.sh,将里面的-a 0替换成-a 1。
每个目录下都有shell输出,可以挑选基于nextDenovo.sh.e这里面的结果挑选组装指标较好的,再输出序列,比如说比较下N50。

$grep N50 01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph*/*.e

默认情况下,最终组装出20条contig。


全部20条contig结果

最后:
我用了四个性价比比较高的三代组装软件对大肠杆菌pacbio数据做了个比较:


结果比较

可以看到在不考虑速度的情况下,flye的长度是最长的。

上一篇下一篇

猜你喜欢

热点阅读