用mecat2组装基因组
背景介绍
mecat2可以说是比较早的一批可以用于三代测序平台的基因组组装软件了,2017年刚上硕士的时候就有接触到过。当然还有WTDBG2也是差不多同时期的软件。
软件安装
这次没法无脑conda了,得从源码开始编译。就当忆苦思甜吧,见识一下如果没有conda加持,软件安装是一个什么样的过程。不过mecat2的安装已经是比较新手友好型的了。
git clone https://github.com/xiaochuanle/MECAT2.git
cd MECAT2
make
记得把MECAT/Linux-amd64/bin
的路径加入环境变量以便全局调用哦。
软件运行
1. 生成输入文件
把多个测序文件的存储路径写入fastq.list
ls /path/to/rawData/pacbio/*.gz > fastq.list
2. 生成config文件
再用mecat2.pl
生成一个config文件
mecat.pl config > test.config
有的时候你会遇到软件输出这么一句:
Smartmatch is experimental at /path/to/MECAT2/Linux-amd64/bin/Plgd/Project.pm line 232.
这只是一个warning,不用管他。它实际上说的内容也不过是告诉你一下Project.pm
这个程序的232行所使用的Smartmatch
这个功能是一个实验性功能。没了。你就当无事发生过就好。
接下来根据你的需求去修改config文件即可。
PROJECT=test
RAWREADS=/path/to/04mecat2/fastq.list
GENOME_SIZE=xxxxxxxxx
THREADS=80
MIN_READ_LENGTH=2000
CNS_OVLP_OPTIONS="-kmer_size 13"
CNS_PCAN_OPTIONS="-p 100000 -k 100"
CNS_OPTIONS=""
CNS_OUTPUT_COVERAGE=30
TRIM_OVLP_OPTIONS="-skip_overhang"
TRIM_PM4_OPTIONS="-p 100000 -k 100"
TRIM_LCR_OPTIONS=""
TRIM_SR_OPTIONS=""
ASM_OVLP_OPTIONS="-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"
FSA_OL_FILTER_OPTIONS="--max_overhang=-1 --min_identity=-1"
FSA_ASSEMBLE_OPTIONS=""
CLEANUP=0
USE_GRID=true
注意这里的GENOME_SIZE
只能识别bp为单位的数字大小,所以不要设置成3.2g
之类的,软件识别不了。
其他参数就根据GitHub上的介绍或者我下面列出的洲更学长的帖子去设置就可以了。
3. 运行
直接nohup挂后台运行就可以了。
nohup mecat.pl assemble turtle.config &
参考资料
GitHub地址:
https://github.com/xiaochuanle/MECAT2#S-input-format
洲更学长的教程贴:
https://zhuanlan.zhihu.com/p/81172953
文章:
https://www.nature.com/articles/nmeth.4432
萌哥碎碎念
- 基本这篇就是基因组组装软件的最后一篇了,下个阶段开始更新用10x genomics数据辅助scaffolding的内容。
- 如果你手上的是ONT的数据,那么可以试试
necat
(https://github.com/xiaochuanle/NECAT)同样是肖老师组开发的,专为ONT数据设计,国内的一些测序公司指定使用的ONT数据组装软件,你值得try try。 - 最近刷扣扣群看到未来组的胡江博士提到肖老师组又开发了一个新的组装软件叫
pecat
(https://github.com/lemene/PECAT)现在还处在活跃地开发中。
PECAT
is a phased error correction and assembly tool for long reads. It includes a haplotype-aware correction method and an efficient diploid assembly method.
这个软件的目标是组装出单倍体级别的基因组,在necat和mecat的技术积累上,基因组组装软件也朝着更精细更准确更完善的方向发展着。真好啊。
我本来想测试一下看看效果,但是挂在了第一步的软件安装上。不过看起来作者们有在积极地更新,期待最终成果。
pecat的文章:https://www.biorxiv.org/content/10.1101/2022.09.25.509436v1