Linux与生物信息组学比较基因组学

Merqury评估基因组质量

2021-03-01  本文已影响0人  斩毛毛

一款用于评估基因组质量的新方法

一般用于评估的方法

最近,GEnome Biology 发表一新工具'Merqury: reference-free quality, completeness, and phasing assessment for genome assemblies',
githup: https://github.com/marbl/merqury

一款新的软件Merqury, 基于Kmer的方法进行鉴定,据文章说是目前最牛叉的,现就consensus quality value (QV) 评估进行说明,

其中图b的红色区域,用于鉴定QV,Q30等于99.9%正确率,Q40为99.99%正确率

1 软件安装

conda create -n merqury  -c bioconda merqury 

2 简单操作

ln -s $MERQURY/merqury.sh       # Link merqury
./merqury.sh <read-db.meryl> [<mat.meryl> <pat.meryl>] <asm1.fasta> [asm2.fasta] <out>

Usage: merqury.sh <read-db.meryl> [<mat.meryl> <pat.meryl>] <asm1.fasta> [asm2.fasta] <out>
    <read-db.meryl> : k-mer counts of the read set
    <mat.meryl>     : k-mer counts of the maternal haplotype (ex. mat.only.meryl or mat.hapmer.meryl)
    <pat.meryl>     : k-mer counts of the paternal haplotype (ex. pat.only.meryl or pat.hapmer.meryl)
    <asm1.fasta>    : Assembly fasta file (ex. pri.fasta, hap1.fasta or maternal.fasta)
    [asm2.fasta]    : Additional fasta file (ex. alt.fasta, hap2.fasta or paternal.fasta)
    *asm1.meryl and asm2.meryl will be generated. Avoid using the same names as the hap-mer dbs
    <out>       : Output prefix

2.1 构建kmer的db

best_k.sh <genome_size> [tolerable_collision_rate=0.001]
# 如下
best_k.sh 3100000000

Kmer 为21
for each read$i.fastq.gz
do
    # 1. Build meryl dbs
    meryl k=$k count output read$i.meryl read$i.fastq.gz
done

## 合并两个reads 的db
meryl union-sum output $genome.meryl read*.meryl

如果没有hap-mers就使用如下命令即可

$MERQURY/merqury.sh read-db.meryl asm1.fasta out_prefix

其中read-db.meryl 是根据二代reads建的db; asm1.fastat 组装基因组序列;ou t_prefix,输出结果

2.2 结果

查看QV结果

head */*.qv
==> triocanu_clr/triocanu_.qv <==
col 682359  123511626   35.1183 0.000307729
cvi 506306  122349407   36.3761 0.00023035
Both    1188665 245861033   35.6991 0.00026921

第一列:组装基因组
第二列:基因组中特有的kmer
第三列:基因组和reads中均存在的kmer
第四列:QV
第五列:错误率

查看完整度

head completeness.stats
col all 104975080   125303808   83.7764
cvi all 104809523   125303808   83.6443
both    all 123134729   125303808   98.2689

计算公式:

k-mer completeness = found solid k-mers in an assembly / solid k-mers in a read set

第一列:组装基因组
第二列:all- reads set
第三列:基因组的solid kmer
第四列:reads 中的总solid kmer
第五列:完整度(%)

详细用法请查看https://github.com/marbl/merqury, 若果使用该软件,不要忘记引用:
Rhie, A., Walenz, B.P., Koren, S. et al. Merqury: reference-free quality, completeness, and phasing assessment for genome assemblies. Genome Biol 21, 245 (2020). https://doi.org/10.1186/s13059-020-02134-9

上一篇下一篇

猜你喜欢

热点阅读