生信基础知识

生信格式之sam、bam

2021-01-12  本文已影响0人  小贝学生信

一、sam、bam简介

1、sam

2、bam

3、序列比对小例子

在PE双端测序中 pair reads与mate pairs概念基本相同,区别见https://www.biostars.org/p/77293/

2、sam格式剖析

image.png

2.1 header部分(optimal)

2.2 alignment section(required)

第一列:read name

在双端测序,一般至少有两条相同记录的read name(pair reads),但有时会有很多条(>2)记录是因为

第二列:flag

其余三种情况比较少见,不作记录了。关于secondary alignment与supplementary alignment的区别我认为就是分别对应Multiple mapping reads与Chimeric alignment比对情况。详见https://sourceforge.net/p/samtools/mailman/message/33235303/

这个网页https://broadinstitute.github.io/picard/explain-flags.html提供了根据输入的结果flag来分解原特征组合的功能,挺方便的。

alignment record
第三列&第四列:read的位置

简单来说1-based就是序列第一个碱基序号为1,例如SAM, VCF, GFF and Wiggle formats等;0-based就是序列第一个碱基序号为0,例如 BAM, BCFv2, BED, and PSL formats等。

第五列:MAPQ
第六列:CIGAR

其实总结来看,NS/H分别表示了两种特殊比对情况spliced alignment与clipped alignment,前者是中间没比对上,而两端比对上了;后者使中间比对上,而两端没比对上。

clipped alignment -- 3S8M1D6M4S
spliced alignment -- 9M32N8M
alignment record
第七、八、九列:描述mate read信息

特殊的TLEN:Note: these two definitions agree in most alignments, but differ in the case of overlaps where the first segment aligns beyond the start of the last segment.


image.png
第十、十一列:序列信息
第12+n列:metadata(optimal)

至此,关于sam格式的基本介绍大致如上,主要参考了http://samtools.github.io/hts-specs/SAMv1.pdf教程手册,其中还有很多深入的知识,值得以后深入探索~~

image.png

三、samtools转换sam、bam

samtools view -bS SRR1663608.sam > SRR1663608.bam
samtools view -h -o SRR1663608.sam SRR1663608.bam
#查看bam
samtools view -h SRR1663608.bam | more
#the number of records (alignments) 
samtools view -c SRR1663608.bam
#Displays basic alignment stats based on flag
samtools flagstat SRR1663608.bam

更多关于sam/bam格式的操作,可见之间生信技能树Jimmy大神布置的一些练习题,我自己也做了,详见Linux生信练习3--sam/bam


笔记图片大多来自网上,侵删~ 笔记中如有错误之处,欢迎指出!

上一篇下一篇

猜你喜欢

热点阅读