生物信息学分析

SAM格式相关的术语和概念

2022-02-09  本文已影响0人  JeremyL

SAM格式相关的术语和概念

1. SAM格式是什么?

SAM是Sequence Alignment/Map format的缩写。SAM格式是TAB分割的文本文件,包含一个非必须的注释信息部分和必须的比对信息部分。注释信息位于比对信息前,并且一般以@开始。

2. SAM格式相关的术语和概念

Template:DNA/RNA序列,其部分由测序仪测得或从原始数据组装得到。

Segment:一段连续序列或子序列

Read:从测序仪得到的原始序列。一个read可以由多个Segment组成。

Linear alignment:单个read比对到单个参考序列,其中可能包括插入,删除、跳过和剪切,但不能有方向改变,即比对上的序列一部分在正义链一部分在反义链。SAM文件中一行可以记录一个线性比对事件。

Chimeric alignment:无法被Linear alignment表示的比对事件,一个Chimeric alignment一般被表示为多个没有大交集的linear alignments的集合。在嵌合比对中,有一个线性比对被视为“representative” alignment,其余的被视为supplementary alignment,这个可以通过flag列识别。同一个chimeric alignment的linear alignments有一样的query name(QNAME)和flag(0x40 和0x80)。关于哪个linear alignments被视为supplementary alignment是随机的。

Read alignment:read的一次完整比对,可以是一次线性比对或嵌合比对。

Multiple mapping:单个read比对到多个位置,其中一个被是为primary alignment,其他的被视为secondary alignment,可以通过0x40 和 0x80 flags识别。primary alignment一般被认为是最好比对。

1-based coordinate system:位置从1开始;The SAM, VCF, GFF and Wiggle formats are using the 1-based coordinate system.

0-based coordinate system:位置从0开始; The BAM, BCFv2, BED, and PSL formats are using the 0-based coordinate system.

Phred scale:-10\log_10(p)

Notes:

3. SAM格式比对信息部分

比对信息部分,每行表示一个segment的线性比对结果,包含TAB1键分割的至少11个元素;

The alignment section
  1. “Consumes query” 和“consumes reference”: CIGAR中查询序列和参考序列分别使用的碱基数目
  2. H 只能出现在CIGAR的开始或最后
  3. S的两边必为H,或者位于CIGAR的末端;
  4. 对于mRNA到基因组的比对,N表示内含子。对于其他类型的比对,N的解释未被定义;
  5. M/I/S/=/X 长度和应该等于SEQ长度。

参考

SAMv1

上一篇下一篇

猜你喜欢

热点阅读