GATK_SNP变异gatkWES与WGS分析

生信格式之vcf格式

2021-01-16  本文已影响0人  小贝学生信
VCF format

一、VCF格式背景

1、VCF的由来

2、基因组变异类型

如下图一般可分为三大类变异

(1)SNP
SNP&INDEL
(2)INDEL
(3)SV
三种变异类型

3、VCF记录变异的示例

image.png

二、VCF格式总结

第1列、CHROM

第2列、POS

第3列、ID

第4列、REF

第5列、ALT

第6列、Quality

第7列、FILTER

If filters have not been applied, then this field should be set to the missing value.即全为点.

第8列、INFO

对于第5列ALT列有2种的,则AC、AF值也分别有两种。其它INFO的flag就不一一介绍了,其中FSReadPosRandSumMQRankSum等是重要的过滤vcf的标准,之后可重点关注下。

第9+列、FORMAT

The allele values are 0 for the reference allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on.
对于|\的区别, 官方介绍前者表示genotype phased,后者表示genotype unphased。目前我也还没完全理解,参考https://blog.csdn.net/samhuairen/article/details/70243930https://www.biostars.org/p/5298/

image.png

(2)AD:allele depths,表示sample中该位点里不同allele的覆盖度,一般有两个,逗号分隔,分别表示REF(0)、ALT(1)的覆盖度。如果ALT有两种可能,则就有三个值。
(3)DP:表示sample中该位点的总覆盖度,一般为AD所有值的和。
(4)GQ:Genotype的质量值,类似第6列的含义,不过这里是针对每个样本的计算。
(5)PL:genotype likelihoods,指定的三种基因型(0/0,0/1,1/1)的质量值(provieds the likelihoods of the given genotypes);这三种基因型的原始概率总和为1,再经过-log10转换。值得注意就是该值越大,表明为该种基因型的可能性越小。所以最有可能的genotype的值为0(参考下图)。

image.png

参考文档链接
1、基因组变异检测概述http://www.360doc.com/content/18/1213/11/52645714_801492183.shtml
2、The Variant Call Format (VCF) Version 4.2 Specification https://github.com/samtools/hts-specs
3、VCF格式的学习及对VCF文件的统计https://www.jianshu.com/p/38f734ae47f5
PS:部分图片来自网上,侵删~

上一篇 下一篇

猜你喜欢

热点阅读