【SV分析-1】Manta
欢迎关注:oddxix
1.介绍
Manta由illumina开发,用于分析小集合的生殖变异与在个体的肿瘤/正常样品对中的体细胞变异。
2.安装
安装介绍 Manta installation instructions
3.方法概述
Manta将SV和indel发现过程分为两个主要步骤:
(1)扫描基因组以找到SV相关区域;(2)在这些区域中发现的SV的分析,评分和输出
3.1 Build breakend association graph
扫描整个基因组以发现可能的SV和大的插入缺失的证据。该证据被列举成具有连接基因组的所有区域的边的图,所述区域具有可能的breakend关联。
3.2 Analyze graph edges to find SVs
分析单个图形边缘或高度连接的边缘组,以发现和评分与边缘相关联的SV。
4.检测类型
Manta能够检测在没有拷贝数分析和大规模从头组装的情况下可识别的所有结构变体类型。
Manta主要针对DNA进行全基因组和全外显子组(或其他靶向富集)测序分析。对于这些测定,支持以下应用:
-
Joint analysis of small sets of diploid individuals (where 'small' means family-scale -- roughly 10 or fewer samples)小组二倍体个体的联合分析(其中“小”表示家庭规模 - 大约10个或更少的样本)
-
Subtractive analysis of a matched tumor/normal sample pair对匹配的肿瘤/正常样品对进行subtraction分析
-
Analysis of an individual tumor sample分析个体肿瘤样本
4.1检测的变异类型
-
Deletions(缺失)
-
Insertions(插入)
-
Fully-assembled insertions (完全组装插入)
-
Partially-assembled (ie. inferred) insertions(部分组装插入)
-
Inversions (倒位)
-
Tandem Duplications (串联重复)
-Interchromosomal Translocations (染色体间易位)
4.2 局限性
曼塔不能够检测以下变种类型:
-
Dispersed duplications分散重复
-
Most expansion/contraction variants of a reference tandem repeat参考串联重复的大多数扩增/收缩变体
-
Small inversions小倒置
-
Fully-assembled large insertions完全组装的大插入
5.输入文件
Manta要求输入序列以BAM或CRAM格式作为输入提供。必须对每个输入文件进行坐标排序和索引,以在名为匹配输入BAM或CRAM文件的文件中生成asamtools / htslib样式索引,并附加“.bai”,“.crai”或“.csi”文件扩展。
6.输入结果
Manta输出是一组VCF 文件,可在$ {MANTA_ANALYSIS_PATH} / results / variants中找到。目前,为生殖突变创建了3个VCF文件,为体细胞突变创建1个VCF。文件结果如下:
-
diploidSV.vcf.gz
SV和indel在二倍体模型下对联合二倍体样品分析中的样品组或对肿瘤/正常subtraction分析中的正常样品进行评分和基因分型。 -
somaticSV.vcf.gz
SV和indels在体细胞变异模型下得分。仅提供肿瘤样本比对文件时才会生成此文件 -
candidateSV.vcf.gz
未分类的SV和indel候选者。只有极少量的支持证据才能在此文件中输入SV作为候选者。 SV或indel必须是考虑进行评分的候选者,因此如果SV不存在于此文件中,则SV不能出现在其他VCF输出中。 -
candidateSmallIndels.vcf.gz
candidateSV.vcf.gz文件的子集仅包含小于最小得分变体大小的简单插入和删除变体(默认为50)。如果此候选集不合适,则可以从candidateSV.vcf.gz文件中解析替换的小插入缺失候选集。
对于··仅肿瘤分析··,Manta将产生额外的VCF:
- tumorSV.vcf.gz
删除多余的候选项和小于最小得分变量大小的小插入符号(默认为50)后,candidateSV.vcf.gz文件的子集。 SV没有评分,但包括其他细节:(1)每个等位基因的配对和分裂读取支持证据计数(2)将来自评分的肿瘤 - 正常模型的过滤器的子集应用于单个肿瘤病例以提高精确度。
7.Manta VCF文件格式说明
7.1 INFO列解释:
imageINFO列解释.1
imageINFO列解释.2
1)IMPRECISE:指示该SV是不准确的,无法获取准确的断点位置信息;单纯根据该SV的Reads支持来打分;
2)SVTYPE:SV类型;
3)SVLEN:REF与ALT间的长度差异;可以理解为SV长度;
4)END:该SV的终点位置,非BND类型的SV才有该信息;
5)CIPOS:POS周围置信区间;
6)CIEND:END周围置信区间;
7)CIGAR:INDEL类型SV的CICAR比对信息;可体现INDEL长度信息;
8)MATEID:mate breakend的ID;只出现在BND型SV中;
9)EVENT:与breakend相关的事件ID;个人猜测可能是有overlap的事件;
10)HOMLEN:Length of base pair identical homology at event breakpoints;
11)HOMSEQ:Sequence of base pair identical homology at event breakpoints;
12)SVINSLEN:insertion的长度;
13)SVINSSEQ:insertion的序列;
14)LEFT_SVINSSEQ:长度未知的insertion的左侧序列;
15)RIGHT_SVINSSEQ:长度未知的insertion的右侧序列;
16)INV3:表示inversion breakends open 3' of reported location;
17)INV5:表示inversion breakends open 5' of reported location;
18)BND_DEPTH:local translocation断点的Reads深度;
19)MATE_BND_DEPTH:remote translocation mate断点的Reads深度;
20)JUNCTION_QUAL:当SVjunction只是EVENT(ie. a multi-adjacency variant)的一部分的时候,该值为本junction的QUAL value;
21)SOMATIC:表示这是一个somatic variant;
22)SOMATICSCORE:表示somatic variant的quality score;
23)JUNCTION_SOMATICSCORE:当SVjunction只是EVENT(ie. a multi-adjacency variant)的一部分的时候,该值为本junction的SOMATICSCORE value;
7.2 FORMAT列解释
imageFORMAT列解释
1)GT:genotype;
2)FT:Sample filter;‘PASS’表示该样本通过了所有过滤指标;
3)GQ:Genotype quality;
4)PL:Normalized;Phred-scaled likelihoods for genotypes as defiend in the VCF specification;
5)PR:支持REF或ALT 等位基因的高质量(Q30)spanning Reads数;
6)SR:支持REF或ALT等位基因的高质量(Q30)split-reads数;
7.3 FILTER列解释
imageFILTER列解释
1)MinQual:QUAL分值小于20;
2)MinGQ:GQ分值小于15;(filter applied at sample level and record level if all samples filtered)
3)MinSomaticSocre:SOMATICSCORE小于30;
4)Ploidy:对DEL和DUP,overlapping variants的genotype与二倍体不一致;
5)MaxDepth:一侧或者两侧vatiant断点的深度大于染色体平均深度3陪;
6)MaxMQ0Frac:对小型variant(<1000bases),所有sample中任一断点的支持MAPQ0的Reads比例超过0.4;
7)NoPairSupport:对于明显大于fragment size 的variants,在所有样本中均没有 paired reads支持alternate allele;
7.3 MantaID:
1)example1:MantaBND:5862:0:1:0:0:0;1
2)example2:MantaDEL:47029:3:9:0:0:0
3)Lable:MantaBND:表示SV type;当MantaBND移除时,MantaID依然是唯一的;
4)LocusID:5862:SV 断点graph locus的index;Each locus is a disjoint subgraph of the full breakend graph;
5)Node1ID:0:第一个构成graph edge (used to discover this variant)SV断点graph 节点的索引;
6)Node2ID:1:第二个构成graph edge (used to discover this variant)SV断点graph节点的索引;如果Node1ID == Node2ID,this is a self-edge;
7)CandidateID:0:每一个graph edge都是为某个candidate SV或indel佐证;This index provides the index of the source candidate among all candidates associated with this edge;
8)AssemblyID:0:对从组装graph获得的每一个contig或path candidate,该值只是the path index 用于generate该candidate,或者0 for an IMPRECISE variant;
9)SegmentID:0:许多small variants可以提取自组装的contig或path,该值表示产生该variant的contig或path的index;This index can only be no-zero for small indels;
10)BNDID:1:该列仅存在于BND中;该值为0或者1,表示the breakend number of the variant;
8 参考
(1)https://github.com/Illumina/manta/blob/master/docs/userGuide/README.md#germline-configuration-examples
(2)http://blog.sina.com.cn/s/blog_72512a1d0102xrrr.html
转载请注明出处
欢迎关注:oddxix