利用quickmerge对基因组组装的contig去重

2022-02-18  本文已影响0人  挖泥种地

quickmerge是一个用来去除基因组组装中的重复的软件。

该软件没有单独的文章,是作为某个基因组组装中的衍生脚本。该基因组文章是

Improved Genome Assembly and Annotation of the Soybean Aphid (Aphis glycines Matsumura) 

具体而言,基因组组装时候,第一步是组装contig,可以有多种方案,如纯ont组装,纯ccs组装,纯clr组装,以及二代三代masucra或者wenga混合组装等,还可以用同一套数据用不同的软件进行组装,如flye、mecat2、canu等。这样一个基因组就可以有多个组装版本的contig,可以将这些不同版本进行比较,去重,此时就可以用到quickmerge软件。

安装很简单 ,conda就可以安装,如:

conda install -c conda-forge -c bioconda quickmerge

但是这里有个大坑:conda里面安装的这个版本不能使用多线程的mummer4,虽然也显示是V0.3版,但是和github上面真正的V0.3是不一样的,我花了半个小时没弄明白为啥不能按官方方法使用,最后看了源代码才发现不一样。conda的V0.3版本只能使用mummer3比对,mummer3是个单线程的,慢的要死。

所以更好的办法是

git clonehttps://github.com/mahulchak/quickmerge.git

然后进入/quickmerge-master/文件夹,执行

bash make_merger.sh

然后将该文件夹加入path

最后安装mummer4

conda install mummer4

到此安装结束:

使用方法:

简单版本的:

merge_wrapper.py -p (前缀) -v -t (线程数) -l (切掉的contig长度) contig1.fasta contig2.fasta

详细参数可以看-h

注意 如果要使用多线程mummer4比对,必须有-v -t 参数,否则就是默认调用mummer3进行单线程比对,我自己试用了,24小时没结果,然后就放弃了,改多线程只要几十分钟。

在这个比对过程之中,前面的contig1为query,后面的conig2为reference,按照官方说法,可以先用quast对所有组装进行评估,然后连续性较好的作为reference,另一个做query。

另外软件作者说,合并完成后,可以用FinisherSC软件再进一步延长,完事再polish,而且必须再polish。

对了合并之前的所有contig也需要polish。

上一篇下一篇

猜你喜欢

热点阅读