生信猿生物信息学与算法生物信息学习

【SV分析-1】Manta

2018-10-30  本文已影响3人  oddxix

欢迎关注:oddxix

1.介绍

Manta由illumina开发,用于分析小集合的生殖变异与在个体的肿瘤/正常样品对中的体细胞变异。


2.安装

安装介绍 Manta installation instructions


3.方法概述

Manta将SV和indel发现过程分为两个主要步骤:
(1)扫描基因组以找到SV相关区域;(2)在这些区域中发现的SV的分析,评分和输出

3.1 Build breakend association graph

扫描整个基因组以发现可能的SV和大的插入缺失的证据。该证据被列举成具有连接基因组的所有区域的边的图,所述区域具有可能的breakend关联。

3.2 Analyze graph edges to find SVs

分析单个图形边缘或高度连接的边缘组,以发现和评分与边缘相关联的SV。


4.检测类型

Manta能够检测在没有拷贝数分析和大规模从头组装的情况下可识别的所有结构变体类型。
Manta主要针对DNA进行全基因组和全外显子组(或其他靶向富集)测序分析。对于这些测定,支持以下应用:

4.1检测的变异类型

4.2 局限性

曼塔不能够检测以下变种类型:


5.输入文件

Manta要求输入序列以BAM或CRAM格式作为输入提供。必须对每个输入文件进行坐标排序和索引,以在名为匹配输入BAM或CRAM文件的文件中生成asamtools / htslib样式索引,并附加“.bai”,“.crai”或“.csi”文件扩展。


6.输入结果

Manta输出是一组VCF 文件,可在$ {MANTA_ANALYSIS_PATH} / results / variants中找到。目前,为生殖突变创建了3个VCF文件,为体细胞突变创建1个VCF。文件结果如下:

对于··仅肿瘤分析··,Manta将产生额外的VCF:


7.Manta VCF文件格式说明

7.1 INFO列解释:

image

INFO列解释.1

image

INFO列解释.2

1)IMPRECISE:指示该SV是不准确的,无法获取准确的断点位置信息;单纯根据该SV的Reads支持来打分;
2)SVTYPE:SV类型;
3)SVLEN:REF与ALT间的长度差异;可以理解为SV长度;
4)END:该SV的终点位置,非BND类型的SV才有该信息;
5)CIPOS:POS周围置信区间;
6)CIEND:END周围置信区间;
7)CIGAR:INDEL类型SV的CICAR比对信息;可体现INDEL长度信息;
8)MATEID:mate breakend的ID;只出现在BND型SV中;
9)EVENT:与breakend相关的事件ID;个人猜测可能是有overlap的事件;
10)HOMLEN:Length of base pair identical homology at event breakpoints;
11)HOMSEQ:Sequence of base pair identical homology at event breakpoints;
12)SVINSLEN:insertion的长度;
13)SVINSSEQ:insertion的序列;
14)LEFT_SVINSSEQ:长度未知的insertion的左侧序列;
15)RIGHT_SVINSSEQ:长度未知的insertion的右侧序列;
16)INV3:表示inversion breakends open 3' of reported location;
17)INV5:表示inversion breakends open 5' of reported location;
18)BND_DEPTH:local translocation断点的Reads深度;
19)MATE_BND_DEPTH:remote translocation mate断点的Reads深度;
20)JUNCTION_QUAL:当SVjunction只是EVENT(ie. a multi-adjacency variant)的一部分的时候,该值为本junction的QUAL value;
21)SOMATIC:表示这是一个somatic variant;
22)SOMATICSCORE:表示somatic variant的quality score;
23)JUNCTION_SOMATICSCORE:当SVjunction只是EVENT(ie. a multi-adjacency variant)的一部分的时候,该值为本junction的SOMATICSCORE value;

7.2 FORMAT列解释

image

FORMAT列解释

1)GT:genotype;
2)FT:Sample filter;‘PASS’表示该样本通过了所有过滤指标;
3)GQ:Genotype quality;
4)PL:Normalized;Phred-scaled likelihoods for genotypes as defiend in the VCF specification;
5)PR:支持REF或ALT 等位基因的高质量(Q30)spanning Reads数;
6)SR:支持REF或ALT等位基因的高质量(Q30)split-reads数;

7.3 FILTER列解释

image

FILTER列解释

1)MinQual:QUAL分值小于20;
2)MinGQ:GQ分值小于15;(filter applied at sample level and record level if all samples filtered)
3)MinSomaticSocre:SOMATICSCORE小于30;
4)Ploidy:对DEL和DUP,overlapping variants的genotype与二倍体不一致;
5)MaxDepth:一侧或者两侧vatiant断点的深度大于染色体平均深度3陪;
6)MaxMQ0Frac:对小型variant(<1000bases),所有sample中任一断点的支持MAPQ0的Reads比例超过0.4;
7)NoPairSupport:对于明显大于fragment size 的variants,在所有样本中均没有 paired reads支持alternate allele;

7.3 MantaID:

1)example1:MantaBND:5862:0:1:0:0:0;1
2)example2:MantaDEL:47029:3:9:0:0:0
3)Lable:MantaBND:表示SV type;当MantaBND移除时,MantaID依然是唯一的;
4)LocusID:5862:SV 断点graph locus的index;Each locus is a disjoint subgraph of the full breakend graph;
5)Node1ID:0:第一个构成graph edge (used to discover this variant)SV断点graph 节点的索引;
6)Node2ID:1:第二个构成graph edge (used to discover this variant)SV断点graph节点的索引;如果Node1ID == Node2ID,this is a self-edge;
7)CandidateID:0:每一个graph edge都是为某个candidate SV或indel佐证;This index provides the index of the source candidate among all candidates associated with this edge;
8)AssemblyID:0:对从组装graph获得的每一个contig或path candidate,该值只是the path index 用于generate该candidate,或者0 for an IMPRECISE variant;
9)SegmentID:0:许多small variants可以提取自组装的contig或path,该值表示产生该variant的contig或path的index;This index can only be no-zero for small indels;
10)BNDID:1:该列仅存在于BND中;该值为0或者1,表示the breakend number of the variant;


8 参考

(1)https://github.com/Illumina/manta/blob/master/docs/userGuide/README.md#germline-configuration-examples
(2)http://blog.sina.com.cn/s/blog_72512a1d0102xrrr.html

转载请注明出处
欢迎关注:oddxix

上一篇下一篇

猜你喜欢

热点阅读