重测序学习gatk

GATK4插件Mutect2参数解析

2020-06-23  本文已影响0人  佳期如梦你也是

作者按

最近在准备着换一个职业赛道,所以在做之前所有项目的回溯,遇到了最最基础的SNV+Indel的流程,给别人重新讲了一遍Mutect2的过滤规则和参数选择,发现这个,含金量比我之前写的SV和CNV高多了。贴出来给我考试攒人品啦。

Mutect2是基于somatic极大似然模型,通过寻找active region,迭代寻找可能突变的一款认可度很高的软件。

值得注意的是目前的Mutect2单独call变异属于BETA测试版,只有tumor-normal成对call是经过学术认可的。

但是目前各大医院、临检单位,为了压缩成本、减轻患者压力,普遍采取大panel像全外显子这种的采取成对call,小panel单独only tumor。通过SNP数据集,经验值或者其他一代二代验证方法等等过滤产生的假阳性。

那么过滤就需要细之又细,以下是Mutect2的所有参数。参考来源于Mutect官方文档之Mathematical notes on Mutect的chapter8。

概述

Mutect2一共有14个过滤标签(vcf的filter列可能出现的tag),每个标签对应一个或者好几个值。vcf里每个点都有这14个值,值的意义在vcf的info列列出,见下表的key。这每个key或者filter对应一个在运行Mutect时候设置的参数,见下表的Argument。

Mutect参数对应的过滤标签和INFO列的对应键值对

举个例子:

见下图的某位点,base_quality标签出现在了filter列,它在call的时候估算的参数为MBQ=0,而我们设置的min-median-base-quality参数为20,因为0<20,所以base_quality的标签出现在了tag里边。其余参数以此类推。

pos example

像这种与likelihood model相关性弱一点的参数很好理解。万一是t-lod标签呢?它代表什么意思呢?又是如何算出来的呢?这就涉及到它的数学模型了,我已经努力地在写一篇比较浅显易懂的介绍了,但是因为OneNote写公式实在太累,所以我决定手推,等下次更新的时候就可以看到一篇全篇公式的手写图片式科普23333

我一定是准备GMAT的数学太简单了才如此找虐的。。。

好了,言归正传,接下来依次介绍各个标签的含义:

参数含义

1. t_lod

2.clustered_events

3.duplicated_evidence

4.multiallelic

5.germline_risk

6.artifact_in_normal

7.strand_artifact

8.base_quality

9.mapping_quality

10.fragment_length

11.read_position

12.panel_of_normals

13.contamination

14.str_contraction

写在最后

很多参数,比如t-lod是模型最终的检验T值,artifact_in_normal是normal的后验概率相关,如果不了解模型,可能无法理解其假阳性的中间推导过程。建议各位同学仔细读一读Mathematical Notes on Mutect(David Benjamin� and Takuto Sato†Broad Institute, 75 Ames Street, Cambridge, MA 02142
(Dated: September 26, 2018)。

上一篇 下一篇

猜你喜欢

热点阅读