GATK4 Mutect2 call Short Variant
GATK4 Mutect2 call Short Variant
先来看一下GATK 官网对Short Variant的定义:
Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.
Mutect2
Call somatic SNVs and indels via local assembly of haplotypes
Mutect2有两种模式:
(i) somatic mode:分析中,一个肿瘤样本与正常样本相匹配;
(ii) tumor-only mode: 分析中, 只有一个肿瘤数据比对结果;
(i) Tumor with matched normal
利用提供的正常样本数据,Mutect2 只会找出那些体细胞变异;而在种系中普遍存在的变异会被Mutect2 忽略掉。对于那些在种系中无法很好界定的变异,Mutect2 会保留下来进行后续分析。
调用gatk Mutect2
gatk Mutect2 \
-R reference.fa \
-I tumor.bam \
-tumor tumor_sample_name \
-I normal.bam \
-normal normal_sample_name \
--germline-resource af-only-gnomad.vcf.gz \
--af-of-alleles-not-in-resource 0.00003125 \ #变异不存在于种系中的期望值
--panel-of-normals pon.vcf.gz \
-O somatic.vcf.gz
Mutect2不需要运算 a germline resource和a panel of normals (PoN) ;只是利用这两个数据来过滤等位的变异位点。
种群等位位点频率格式如下:
#CHROM POS ID REF ALT QUAL FILTER INFO
1 10067 . T TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC 30.35 PASS AC=3;AF=7.384E-5
1 10108 . CAACCCT C 46514.32 PASS AC=6;AF=1.525E-4
1 10109 . AACCCTAACCCT AAACCCT,* 89837.27 PASS AC=48,5;AF=0.001223,1.273E-4
1 10114 . TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T 36728.97 PASS AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
1 10119 . CT C,* 251.23 PASS AC=5,1;AF=1.249E-4,2.498E-5
1 10120 . TA CA,* 14928.74 PASS AC=10,6;AF=2.5E-4,1.5E-4
1 10128 . ACCCTAACCCTAACCCTAAC A,* 285.71 PASS AC=3,1;AF=7.58E-5,2.527E-5
1 10131 . CT C,* 378.93 PASS AC=7,5;AF=1.765E-4,1.261E-4
1 10132 . TAACCC *,T 18025.11 PASS AC=12,2;AF=3.03E-4,5.049E-5
(ii) Tumor-only mode
单个样本时,使用CreateSomaticPanelOfNormals 生成a panel of normals;
CreateSequenceDictionary 是Picard中一个功能,利用参考序列生成参考序列的索引(.dict).
调用CreateSequenceDictionary
java -jar picard.jar CreateSequenceDictionary \
R=reference.fasta \ # .fasta 或 .fasta.gz
O=reference.dict
调用gatk Mutect2
gatk Mutect2 \
-R reference.fa \
-I sample.bam \
-tumor sample_name \
-O single_sample.vcf.gz
Mutect2 必须设定的参数:
--input -I :BAM/SAM/CRAM文件
--output -O :写入变异信息的加过文件
--reference -R :参考序列
--tumor-sample -tumor : 肿瘤样品名
参考: