生物信息学做实验生信

DNA测序之mapping介绍

2019-07-21  本文已影响411人  gtt儿_生物信息学习

DNA测序之mapping介绍

image.jpeg
基因组mapping会有以下几个方面需要考量:
  1. 准确度。

基因组很大,并且有重复,如何准确的mapping到基因组。如果比对错误,则会造成假阳性的variant。

  1. 敏感性。

有variation的序列和参考基因组是不一样的,如何高效的把这些序列mapping到参考基因组上。并且每个个体是和参考基因组有差异的。

  1. 速度。

二代测序会产生非常多的数据,如何把这些序列快速的比对到参考基因组上。

针对以上mapping的几个考量,有如下的Mapping的算法

image.jpeg

From:Nat Biotechnol. 2009,27(5):455

但综合下来用的比较多的是bowtie和bwa,其他的软件因为各种原因都没有被用到过。

Bowtie运算速度较快,具体算法如下图所示:

image.jpeg

BWA,准确度较高,BWA中包含了三种不同的mapping算法:

BWA mem:较常用,适合长片段(>75bp)

BWA aln: 适合短片段

BWA SW: 适合gap比较多的mapping

Mapping quality代表了什么?

Mapping可以把原始的fastq格式的数据mapping到参考基因组上,从而获得此reads的位置信息。其中mapping quality代表了reads所mapping的位置是否可信。如果一条reads可以mapping到多个位置,那么就会有比较低的mapping quality。在BWA算法中,如果可以mapping到多个位置,则选择最好的一个,但是mapping quality依然会很低。

具体mapping的命令

bwa mem -t 16 -M hg19.fasta test.r1.fastq.gz test.r2.fastq.gz >test.sam

生成的sam文件即为注释到基因组上的文件,结果如下图所示:

image.jpeg

关于sam格式文件的介绍,详见:

https://mp.weixin.qq.com/s/HrNjY3emGjHt9YpAhtZdJw

上一篇 下一篇

猜你喜欢

热点阅读