SAM格式相关的术语和概念
SAM格式相关的术语和概念
1. SAM格式是什么?
SAM是Sequence Alignment/Map format的缩写。SAM格式是TAB分割的文本文件,包含一个非必须的注释信息部分和必须的比对信息部分。注释信息位于比对信息前,并且一般以@开始。
2. SAM格式相关的术语和概念
Template:DNA/RNA序列,其部分由测序仪测得或从原始数据组装得到。
Segment:一段连续序列或子序列
Read:从测序仪得到的原始序列。一个read可以由多个Segment组成。
Linear alignment:单个read比对到单个参考序列,其中可能包括插入,删除、跳过和剪切,但不能有方向改变,即比对上的序列一部分在正义链一部分在反义链。SAM文件中一行可以记录一个线性比对事件。
Chimeric alignment:无法被Linear alignment表示的比对事件,一个Chimeric alignment一般被表示为多个没有大交集的linear alignments的集合。在嵌合比对中,有一个线性比对被视为“representative” alignment,其余的被视为supplementary alignment,这个可以通过flag列识别。同一个chimeric alignment的linear alignments有一样的query name(QNAME)和flag(0x40 和0x80)。关于哪个linear alignments被视为supplementary alignment是随机的。
Read alignment:read的一次完整比对,可以是一次线性比对或嵌合比对。
Multiple mapping:单个read比对到多个位置,其中一个被是为primary alignment,其他的被视为secondary alignment,可以通过0x40 和 0x80 flags识别。primary alignment一般被认为是最好比对。
1-based coordinate system:位置从1开始;The SAM, VCF, GFF and Wiggle formats are using the 1-based coordinate system.
0-based coordinate system:位置从0开始; The BAM, BCFv2, BED, and PSL formats are using the 0-based coordinate system.
Phred scale:
Notes:
-
嵌合比对主要是由结构变异、基因融合、错误组装、测序或实验方法引起的。嵌合比对一般出现在比较长的read;对于一个嵌合比对,其包含的线性比大部分是重叠; 嵌合比对的每一个线性比对一般具有比较好的比对质量,用于call SNP/INDEL。
-
multiple mappings主要是由于重复造成的,在长的read比对时发生较少。一个read比对到多个地方,这些比对结果大部分是有重复的。除了最好的比对外,其他的比对质量一般都<Q3,一般不用于call SNP/INDEL。
3. SAM格式比对信息部分
比对信息部分,每行表示一个segment的线性比对结果,包含TAB1键分割的至少11个元素;
The alignment section-
FLAG
FLAG -
CIGAR
CIGAR
- “Consumes query” 和“consumes reference”: CIGAR中查询序列和参考序列分别使用的碱基数目
- H 只能出现在CIGAR的开始或最后
- S的两边必为H,或者位于CIGAR的末端;
- 对于mRNA到基因组的比对,N表示内含子。对于其他类型的比对,N的解释未被定义;
- M/I/S/=/X 长度和应该等于SEQ长度。