生物信息学基因组『三代测序』

MECAT2组装三代基因组

2019-11-06  本文已影响0人  多啦A梦的时光机_648d

MECAT2是一个很快很快的三代pacbio组装工具。所以组装推荐用flye和mecat2,一定不要用canu和falcon(你的基因组很大的话)。

MECAT2由4个模块组成:

一:下载安装

https://github.com/xiaochuanle/MECAT2
unzip MECAT2-master.zip
mv MECAT2-master MECAT2
cd MECAT2/src/
make
export PATH=~/soft/MECAT2/Linux-amd64/bin:$PATH   ##记得加入环境哦

二. 数据准备

我是自己的三代数据,你也可以去ncbi下载。
准备config配置文件( MECAT2的组装过程的参数都在配置文件中:nephila_config_file.txt)

$ mecat.pl config nephila_config_file.txt

用vim修改config文件

OJECT=nephila           #项目名,之后的所有输出文件都在该项目名的目录下
RAWREADS=/home/spider/data/nephila/nephila.fasta   #原始数据的位置
GENOME_SIZE=2000000000  #基因组大小,单位是bp,我的就是2G
THREADS=24        #线程
MIN_READ_LENGTH=5000    #用于纠错和trim的reads的最低长度
CNS_OVLP_OPTIONS=""   #在纠错阶段是检测候选重叠的参数, 会传给mecat2pw
CNS_OPTIONS="-r 0.6 -a 1000 -c 4 -l 2000"   #原始reads纠错参数,会传递给mecat2cns,
TRIM_OVLP_OPTIONS="-B"                 #在trim阶段,用于检测重叠的参数,会传给v2asmpm
ASM_OVLP_OPTIONS="-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"       #在组装阶段,用于检测重叠的参数,传给v2asmpm.sh
FSA_OL_FILTER_OPTIONS="--max_overhang=-1 --min_identity=-1"     过滤重叠的参数,传递给fsa_ol_filter
FSA_ASSEMBLE_OPTIONS=""          #组装trimm reads的参数, 传给v2asmpm
USE_GRID=false   #是否有多个计算节点
CLEANUP=1   #运行结束后删除MECAT2的中间文件,大基因组的临时文件很大,所以要设置为1.
CNS_OUTPUT_COVERAGE=30        #选择多少覆盖度的最长纠错后reads进行trim和组装,一般30X就够了,大基因组也够了。
GRID_NODE=0    #当USE_GRID=1时,设置用到的计算节点数,如果是单节点服务器,不需要设置。

三.运行脚本

1.对reads纠错

$ mecat.pl correct nephila_config_file.txt

2. 对纠错后的reads进行组装

$ mecat.pl assemble nephila_config_file.txt

3. 结果文件

* 纠错的reads在: ${MECAT_PATH}nephila/1-consensus/cns_reads.fasta.
* 纠错之后最长的30x用于组装的reads在: ${MECAT_PATH}nephila/1-consensus/ cns_final.fasta.
* 修剪后的reads在: ${MECAT_PATH}nephila/2-trim_bases/trimReads.fasta
* 最终组装的contigs在: ${MECAT_PATH}nephila/4-fsa/contigs.fasta

最后:
mecat2支持fasta, fastq以及H5格式输入文件,但是H5文件首先要用 ${MECAT_PATH}/DEXTRACT/dextract before running MECAT2转换成fasta格式。

还有就是你的服务器里面的gcc版本要高一点,不然安不上哦!

参考

https://www.jianshu.com/p/176fc8105000
https://github.com/xiaochuanle/MECAT2
上一篇 下一篇

猜你喜欢

热点阅读