基因组常见文件格式

2020-11-26  本文已影响0人  生物信息与育种

[toc]

vcf文件(4.2)

格式说明

官方文档:
https://samtools.github.io/hts-specs/VCFv4.2.pdf
仍然不太适应看长篇的英文文档,看了后面忘了前面,看多了头晕。

中文参考:
VCF (Variant Call Format)格式详解

但是官方文档是解释的最权威、最全面的,英文水平要培养起来,不要畏惧,养成读官方文档习惯,提炼要点。仅看网上教程是不可能面面俱到的,何况大部分教程都是没有经过实验,仅仅复制粘贴别人的。很多细节只有自己实践时发现,举个例子:

原始vcf文件如下:


image.png

包含SNP和Indel,应用时需要将SNP/Indel提取出来:

# call snp
vcftools --vcf test.vcf --remove-indels --out test.snps --recode --recode-INFO-all
# or
java -jar GenomeAnalysisTK.jar \
    -T SelectVariants \
    -R reference.fasta \
    -V test.vcf   \
    -selectType SNP \
    -o test.snps.vcf

# call indel
vcftools --vcf test.vcf --keep-only-indels --out test.indels --recode --recode-INFO-all
# or
java -jar GenomeAnalysisTK.jar \
    -T SelectVariants \
    -R reference.fasta \
    -V test.vcf  \
    -selectType INDEL \
    -o test.indels.vcf

snp.vcf文件中还有一些不常见的东西:

image.png
image.png image.png

我们如果要进行文件格式转换,这里就需要注意了。一般只有一个位点,这里却有多个位点,后面的编码除了0,1组合,还有2。此外,0/10|1又有什么区别?比如你想把vcf文件转化为hapmap格式,尤其是自己写脚本时,你可以看看tassel之类的软件是怎么处理的。

关于基因型定相和非定相,贴几个biostars上的问题:


待补充

Bam/sam格式

GFF/GTF格式

Hapmap格式

Plink格式

GT格式

上一篇下一篇

猜你喜欢

热点阅读