二代组装基因组组装生物信息

一文看懂如何用QUAST评估组装的基因组

2021-07-12  本文已影响0人  生信阿拉丁

作者:童蒙
编辑:angelica

二代测序和三代测序技术给基因组研究带来了巨大的变革,然而二代技术的读长短、不能很好地处理重复区域;而三代技术读长长、但是准确率低;同时不同的组装软件也有各种不同的算法。为了更好地评测不同的软件、不同的数据在基因组组装方面的优势,作者升级了QUAST为QUAST-LG,增加了对三代测序和大基因组的评测。


一、依赖软件

  1. 长序列的比对:minimap
  2. 基因预测和功能比较:GeneMarkS, GeneMark-ES, GlimmerHMM, Barrnap, and BUSCO
  3. SV检测:BWA, Sambamba, and GRIDSS
  4. 深度和覆盖度统计:bedtools
  5. contig结果浏览器:Icarus、Circos

二、安装和使用

安装

conda一键安装,命令如下:
conda install -c bioconda quast

简易使用

./quast.py  test_data/contigs_1.fasta \ 
    test_data/contigs_2.fasta \
    -r test_data/reference.fasta.gz \
    -g test_data/genes.gff

更多的参数说明

更多的参数说明可以参考官网,由于篇幅有限, 大家可以自己去查看一下。

三、结果解释

小编自己拿人的组装结果进行了测试,各个结果统计如下:

表格内容的解释

1 Genome statistics

Genome fraction (%)    94.015
Duplication ratio    1.008
Largest alignment    24186441
Total aligned length    2741819159
NG50    4238925
NG75    692661
NA50    4339909
NA75    1231691
NGA50    3532470
NGA75    603978
LG50    166
LG75    625
LA50    166
LA75    469
LGA50    207
LGA75    756

带大家看下是些什么指标:

2 Reads mapping

# mapped    3254077
Mapped (%)    99.98
# properly paired    0
Properly paired (%)    0
# singletons    0
Singletons (%)    0
# misjoint mates    0
Misjoint mates (%)    0
Avg. coverage depth    14
Coverage >= 1x (%)    99.95
Coverage >= 5x (%)    97.32
Coverage >= 10x (%)    71.41

3 Misassemblies

Misassemblies    
# misassemblies    1412
   # relocations    1070
   # translocations    286
   # inversions    56
# misassembled contigs    740
Misassembled contigs length    1038454760
# local misassemblies    5745
# scaffold gap ext. mis.    0
# scaffold gap loc. mis.    0
# possible TEs    296
# unaligned mis. contigs    306

4 Unaligned

 # fully unaligned contigs    1428
Fully unaligned length    46340452
# partially unaligned contigs    1721
Partially unaligned length    26108910

5 Mismatches

# mismatches    3515608
# indels    969582
Indels length    8739555
# mismatches per 100 kbp    129.06
# indels per 100 kbp    35.6
   # indels (<= 5 bp)    835402
   # indels (> 5 bp)    134180
# N's    0
# N's per 100 kbp    0

6 Statistics without reference

# contigs    5649
# contigs (>= 0 bp)    5667
# contigs (>= 1000 bp)    5666
# contigs (>= 5000 bp)    5585
# contigs (>= 10000 bp)    4913
# contigs (>= 25000 bp)    3635
# contigs (>= 50000 bp)    2663
Largest contig    25250014
Total length    2817344836
Total length (>= 0 bp)    2817383104
Total length (>= 1000 bp)    2817382316
Total length (>= 5000 bp)    2817082622
Total length (>= 10000 bp)    2812071586
Total length (>= 25000 bp)    2790868742
Total length (>= 50000 bp)    2756006859
N50    5380095
N75    1473207
L50    133
L75    384
GC (%)    40.74

这个就很好理解了,我就简单地挑个写下,比如contigs :contig的总的个数。

7 Predicted genes

# predicted genes (unique)    201597
# predicted genes (>= 0 bp)    1313830 + 0 part
# predicted genes (>= 300 bp)    99698 + 0 part
# predicted genes (>= 1500 bp)    3122 + 0 part
# predicted genes (>= 3000 bp)    436 + 0 part

图片解释

报告最后一部分是紧跟着几个累积分布图,将contig按照大到小排序后,统计不同的指标,可以很直观地看到各个分布下的解释。由于这部分很直观,就不再解释了。


参考资料

上一篇 下一篇

猜你喜欢

热点阅读