bam/sam 数据格式(2018-05-29)
转自:https://blog.csdn.net/niuhuihui_fei/article/details/73106998?locationNum=14&fps=1
SAM和BAM是序列比对之后常用的输出格式
比如tophat输出BAM格式,bowtie和bwa等都采用了SAM格式。
BAM格式其实就是SAM格式的二进制格式,占用存储空间更小。
samtools由中国学者开发,专门用于sam/bam格式文件的各种操作。
1.bam文件读取
samtools view xxx.bam
samtools view xxx.bam |less
2.bam和sam的区别与一致
sam是带有比对信息的序列文件(即告诉你这个reads在染色体上的位置等),用于储存序列数据(SAM format is a generic format for storing large nucleotide sequence alignments. )。
BAM is the compressed binary version of the Sequence Alignment/Map (SAM) format. 生物信息中的二进制文件主要是为了节约空间,计算机机可读。可以用samtools工具实现sam和bam文件之间的转化。
二者都是fastq文件经过序列比对或者mapping后输出的格式(其储存的信息都是一致的)
3.资料来源:
Samtools官网:http://samtools.sourceforge.net/
UCSC 上对BAM Track Format介绍:genome.ucsc.edu/goldenPath/help/bam.html
Samtools应用实例:https://wikis.utexas.edu/display/CoreNGSTools/SAM+format+and+samtools
Samtools参考文献:The Sequence alignment/map (SAM) format and SAMtools
对SAM每一列的详细解释: http://genome.sph.umich.edu/wiki/SAM
SAM格式解释及specification介绍: http://davetang.org/wiki/tiki-index.php?page=SAM
能利用或产生SAM/BAM的NGS软件:http://samtools.sourceforge.net/swlist.shtml
4.格式(sam与bam格式是一致)
SAM格式分为header section(头部分,注释信息,以@开头,可有可无)和alignment section(比对结果)两个部分。
其中header section用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序;@SQ,参考序列说明;@RG,比对上的序列(read)说明;@PG,使用的程序说明;@CO,任意的说明信息。Tag以键值对的形式存在。
alignment section 必须由11个字段组成 ,以tab分开。如果其内容没有获得,可以用*或者0代替。
QNAME, FLAG, RNAME, POS, MAPQ, CIGAR, MRNM, MPOS, ISIZE, SEQ, QUAL