VCF文件格式

2021-11-18  本文已影响0人  谁冒充我小叮当

文章仅是记录自己的学习使用,有错误请指出,我立刻改正!

官方说明:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/
更多说明:
https://cloud.tencent.com/developer/article/1607926
https://www.jianshu.com/p/b2b30b23c866
https://zhuanlan.zhihu.com/p/519356332

一、注释部分

“#”开头的注释部分,包含对VCF的介绍信息

##fileformat=VCFv4.2
##fileDate=20211116
##source=freeBayes v1.3.4
##reference=genome.fasta
##contig=<ID=Chr01,length=70190195>
##contig=<ID=Chr02,length=25710898>
##contig=<ID=Chr04,length=25286349>
##contig=<ID=Chr05,length=24731975>
......
##commandline="freebayes -f genome.fasta --use-best-n-alleles 3 --min-mapping-quality 20 merge.bam 
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of samples with data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total read depth at the locus">
##INFO=<ID=DPB,Number=1,Type=Float,Description="Total read depth per bp at the locus; bases in reads overlapping / bases in haplotype">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Total number of alternate alleles in called genotypes">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=AF,Number=A,Type=Float,Description="Estimated allele frequency in the range (0,1]">
##INFO=<ID=RO,Number=1,Type=Integer,Description="Count of full observations of the reference haplotype.">
......

二、主体部分

[0]CHROM    [1]POS    [2]ID    [3]REF    [4]ALT    [5]QUAL    [6]FILTER    [7]INFO    [8]FORMAT    [9]SAMPLES
[0]Chr05    [1]20000355    [2].    [3]A    [4]G    [5]51.3669   [6].    [7]AB=0;ABP=0;AC=6;AF=0.428571;AN=14;AO=4;CIGAR=1X;......TYPE=snp    [8]GT:DP:AD:RO:QR:AO:QA:GL [9]1/1:1:0,1:0:0:1:37:-3.69783,-0.30103,0

三、FORMAT列详解

(一)GT : genotype

0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

(二)AD和DP

例:GT:AD(REF),AD(ALT):DP  1/1:0,175:175

(三)GQ

(四)PL(likelihood genotypes)

对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。这个值越小,概率就越大,即这个基因型的可能性越大。

四、INFO列详解

(一)AC,AF和AN

AC(Allele Count)表示与variant一致的Allele(等位碱基)的数目
AF(Allele Frequency)表示Allele的频率,AF值=AC值/AN值
AN(Allele Number)表示Allele的总数目。

(二)DP

(三)FS

(四)ReadPosRandSum

(五)MQRankSum

上一篇 下一篇

猜你喜欢

热点阅读