生信相关比对生物信息学与算法

Samtools 详解

2017-10-30  本文已影响2796人  Thinkando

序列比对

如今序列比对已成为各种生物学分析中不可缺少的重要环节,通过将未知的基因片段与已知具体信息的基因或基因组进行比较,并分析其中的相同部分与差异部分,就可以得到该基因片段SNP位点、所属物种以及可能具有的生物学功能等重要信息。

sam与bam 格式

sam与bam是两种最常用的比对结果输出文件格式,如转录组Tophat分析软件输出的比对结果为.bam文件,而BWA、bowtie等比对软件则主要输出为.sam文件。bam文件格式是sam文件的二进制格式,占用的存储空间更小,更利于节省存储资源,而且bam文件的计算处理也更快,但二进制无法直接查看则是它的一个明显缺点。

Samtools 软件

顾名思义就是用于处理sam与bam格式的工具软件,能够实现二进制查看、格式转换、排序及合并等功能,结合sam格式中的flag、tag等信息,还可以完成比对结果的统计汇总。同时利用linux中的grep、awk等操作命令,还可以大大扩展samtools的使用范围与功能。

Samtools 基本命令

1 view

$ samtools view [options] <输入bam文件>
image.png
  1. read名称,通常包括测序平台等信息
  2. SAM标记(Flag),没有mapping的标记为“ * ”
  3. chromosome
  4. 比对上的位置,注意是从1开始计数。
  5. MAPQ(mapping quality,描述比对的质量,数字越大,特异性越高,说明该read比对到参考基因组上的位置越唯一)
  6. CIGAR字串,记录插入,删除,错配以及splice junctions(后剪切拼接的接头)
  7. mate名称,记录mate pair信息
  8. mate的位置
  9. 模板的长度
  10. read序列
  11. read质量
  12. 程序用标记

2 flagstat

$ samtools flagstat <输入bam文件>

3. sort

$ samtools sort [options] <输入bam文件> <输出bam文件名>

4. merge

$ samtools merge [options] <输出bam文件> <输入bam文件1> <输入bam文件2>…

5. index

$ samtools index <排序后的bam文件>

6. tview

$ samtools tview [options] <排序后的bam文件> [参考基因组fasta文件]
image.png

第一行为参考序列的碱基坐标,第二行为参考序列,第三行开始即为按排序顺序依次比对上参考序列的各条reads,其中仍以碱基字符表示的则是与参考序列有差异的部分。

image.png

同时,还可以在该界面中按g键,并在出现的方框内输入想要查看的参考序列名及对应位置信息就可以快速跳转到该位置上了。

7. depth

$ samtools depth [options] <排序后的bam文件1> <排序后的bam文件2>…
image.png

8.cat

$ samtools cat [options] <输入bam文件1> <输入bam文件2>…

参考文献

  1. https://mp.weixin.qq.com/s?src=3&timestamp=1509366175&ver=1&signature=YQpqTHl4WpYahQH2jvnkPWMm3-T9BnyoL5l9GZy2AhcBOn1qHmWpWm3u2w7E8gZFK-LHFNbyKxP7c0ZpkJ-hMK70KRS78H9ZCOKoiKdPRVMJzmxVlyG6whwPq2G2cwl2Z-zAlHAmVNlc4BAQSOkDevhuNwi*6AvI1jS9y-EoDEs=t
上一篇下一篇

猜你喜欢

热点阅读