DNA测序之mapping介绍
2019-07-21 本文已影响411人
gtt儿_生物信息学习
DNA测序之mapping介绍
基因组mapping会有以下几个方面需要考量:
- 准确度。
基因组很大,并且有重复,如何准确的mapping到基因组。如果比对错误,则会造成假阳性的variant。
- 敏感性。
有variation的序列和参考基因组是不一样的,如何高效的把这些序列mapping到参考基因组上。并且每个个体是和参考基因组有差异的。
- 速度。
二代测序会产生非常多的数据,如何把这些序列快速的比对到参考基因组上。
针对以上mapping的几个考量,有如下的Mapping的算法
image.jpegFrom:Nat Biotechnol. 2009,27(5):455
但综合下来用的比较多的是bowtie和bwa,其他的软件因为各种原因都没有被用到过。
Bowtie运算速度较快,具体算法如下图所示:
image.jpegBWA,准确度较高,BWA中包含了三种不同的mapping算法:
BWA mem:较常用,适合长片段(>75bp)
BWA aln: 适合短片段
BWA SW: 适合gap比较多的mapping
Mapping quality代表了什么?
Mapping可以把原始的fastq格式的数据mapping到参考基因组上,从而获得此reads的位置信息。其中mapping quality代表了reads所mapping的位置是否可信。如果一条reads可以mapping到多个位置,那么就会有比较低的mapping quality。在BWA算法中,如果可以mapping到多个位置,则选择最好的一个,但是mapping quality依然会很低。
具体mapping的命令
bwa mem -t 16 -M hg19.fasta test.r1.fastq.gz test.r2.fastq.gz >test.sam
生成的sam文件即为注释到基因组上的文件,结果如下图所示:
image.jpeg关于sam格式文件的介绍,详见: