基因组常见文件格式
2020-11-26 本文已影响0人
生物信息与育种
[toc]
vcf文件(4.2)
格式说明
官方文档:
https://samtools.github.io/hts-specs/VCFv4.2.pdf
仍然不太适应看长篇的英文文档,看了后面忘了前面,看多了头晕。
中文参考:
VCF (Variant Call Format)格式详解
但是官方文档是解释的最权威、最全面的,英文水平要培养起来,不要畏惧,养成读官方文档习惯,提炼要点。仅看网上教程是不可能面面俱到的,何况大部分教程都是没有经过实验,仅仅复制粘贴别人的。很多细节只有自己实践时发现,举个例子:
原始vcf文件如下:
image.png
包含SNP和Indel,应用时需要将SNP/Indel提取出来:
# call snp
vcftools --vcf test.vcf --remove-indels --out test.snps --recode --recode-INFO-all
# or
java -jar GenomeAnalysisTK.jar \
-T SelectVariants \
-R reference.fasta \
-V test.vcf \
-selectType SNP \
-o test.snps.vcf
# call indel
vcftools --vcf test.vcf --keep-only-indels --out test.indels --recode --recode-INFO-all
# or
java -jar GenomeAnalysisTK.jar \
-T SelectVariants \
-R reference.fasta \
-V test.vcf \
-selectType INDEL \
-o test.indels.vcf
snp.vcf
文件中还有一些不常见的东西:
image.png image.png
我们如果要进行文件格式转换,这里就需要注意了。一般只有一个位点,这里却有多个位点,后面的编码除了0,1组合,还有2。此外,0/1
和0|1
又有什么区别?比如你想把vcf文件转化为hapmap格式,尤其是自己写脚本时,你可以看看tassel之类的软件是怎么处理的。
关于基因型定相和非定相,贴几个biostars上的问题:
- 什么是基因型定相和非定相?
-
基因定相的意义?
主要和单倍型分析有关。 - 多等位基因?
-
如何去除多等位基因位点?
是否需要去除视研究目的。
待补充