重测序及SNP分析

SAM格式具体信息

2022-03-09  本文已影响0人  爱吃海椒的妹妹

<meta charset="utf-8">

SAM文件HEADER: SAM Format Header

SAM文件每一列的信息:

image image image

FLAG信息:
flag信息展示的是十进制的数字,我们需要将它转变成二进制,二进制每个数字都代表一些信息,1代表true,0代表flase.比如第二个信息显示PE(pair-end)是否比对到合适位置,这里显示1,则表示PE是比对到合适位置。


FLAG.png

关于第二条PE是否比对到合适位置有个补充说明:若PE两条比对到同一条染色体我们称之为properly aligned,若比对到不同染色体则不是properly aligned。这是因为PE原本就是由同一个片段两端测序而来,应该在同一条染色体上。

SAM文件中CIGAR字符串详细记录了read比对到参考序列上的细节:

标记 描述 Description Consumes query Consumes reference
M 匹配(包含完全匹配和单碱基错配) alignment match (can be a sequence match or mismatch) yes yes
I 序列插入(包含潜在Insertion变异) insertion to the reference yes no
D 序列删除(包含潜在Deletion变异) deletion from the reference no yes
N 跳过参考序列 skipped region from the reference no yes
S 软跳过(soft clip),跳过read中的部分序列,不会改变read长度 soft clipping (clipped sequences present inSEQ) yes no
H 硬跳过(hard clip),直接剪切掉read中部分序列,会改变read长度 hard clipping (clipped sequences NOT present inSEQ) no no
P padding,类似N,跳过参考序列的部分区域 padding (silent deletion from padded reference) no no
= 完全匹配 sequence match yes yes
X 序列错配 sequence mismatch yes yes

“Consumes query” and “consumes reference” indicate whether the CIGAR operation causes the alignment to step along the query sequence and the reference sequence respectively.


2022-02-25 (26).png

soft clip和hardclip的区别详见我收录的专题文章:基因组比对文件(SAM/BAM) Soft Clip 与 Hard Clip
【转】基因组比对文件(SAM/BAM) Soft Clip 与 Hard Clip - 简书 (jianshu.com)

BAM文件中除了必须的前11列信息之外,不同的BAM文件中后面记录metadata的列是不固定的,在不同的处理软件中输出时也会有所不同,meatdata含义:SAM (Sequence Alignment/Map) Format Alignment Tags (samformat.info)

部分内容参考下面文章:
作者:WuYankang
链接:https://www.jianshu.com/p/12c81825c1f4

上一篇 下一篇

猜你喜欢

热点阅读