生物信息工具基因组组装

「基因组」Merqury评估基因组

2023-04-10  本文已影响0人  溪溪溪溪溪川

Merqury下载地址:

2020 Genome Biology 发表一新工具:Merqury: reference-free quality, completeness, and phasing assessment for genome assemblies
githup下载地址: https://github.com/marbl/merqury
安装方法参考github说明。

使用说明:

分析要求:
需要二代DNA数据
基因组

export PATH=/share/nas1/yangp/01.software/meryl-1.3/bin/:$PATH
fq1=/share/nas1/pengzw/project/DZH/DZH-29051-AG883/00.data/survey/Strawberry-02-D01_good_1.fq.gz
fq2=/share/nas1/pengzw/project/DZH/DZH-29051-AG883/00.data/survey/Strawberry-02-D01_good_2.fq.gz
fa=Lachesis_assembly_changed.fa
genome_size=256736466

#获取kmer
/share/nas1/yangp/01.software/merqury-1.3/best_k.sh   $genome_size   获取k 值  $k
k=19
#构建db
/share/nas1/yangp/01.software/meryl-1.3/bin/meryl k=$k count output meryl1 $fq1
/share/nas1/yangp/01.software/meryl-1.3/bin/meryl k=$k count output meryl2 $fq2
/share/nas1/yangp/01.software/meryl-1.3/bin/meryl union-sum output read.meryl meryl1 meryl2 
#
/share/nas1/yangp/01.software/merqury-1.3/merqury.sh  read.meryl  $fa  prefix

Merqury是基于Kmer的方法进行鉴定,由此可以延伸至三代数据评估。

分析要求
需要三代CCS数据
基因组

export PATH=/share/nas1/yangp/01.software/meryl-1.3/bin/:$PATH
ccs=ccs.fasta
fa=Lachesis_assembly_changed.fa
genome_size=2326502190
#/share/nas1/yangp/01.software/merqury-1.3/best_k.sh   $genome_size   ### 获取k 值  $k
k=21
/share/nas1/yangp/01.software/meryl-1.3/bin/meryl k=$k count output read.meryl $ccs
/share/nas1/yangp/01.software/merqury-1.3/merqury.sh  read.meryl  $fa  prefix

结果文件

*.qv #QC结果

第一列:组装基因组
第二列:基因组中特有的kmer
第三列:基因组和reads中均存在的kmer
第四列:QV
第五列:错误率

*.completeness.stats 完整度结果

第一列:组装基因组
第二列:all- reads set
第三列:基因组的solid kmer
第四列:reads 中的总solid kmer
第五列:完整度(%)

一般QV越大越好

其他

目前发现如果二代和三代基因组不是一个样本,merqury评估结果较差。三代ccs数据评估基因组结果较好。

参考

https://www.jianshu.com/p/61fefb9a9c5f
https://github.com/marbl/merqury

上一篇下一篇

猜你喜欢

热点阅读