认识MAPQ(Mapping Qualities)
MAPQ(Mapping Qualities) 用来表示每条read的比对情况,MAPQ越高,表示比对质量越好,后续可以根据分析需要来进行过滤。
MAPQ 定义
根据SAM文件的官方定义:
MAPQ: Mapping Quality. It equals -10 log10 Pr{mapping position is wrong}, rounded to the nearest integer. A value 255 indicates that the mapping quality is not available.
简单翻译一下:MAPQ是mapping的质量值,计算方法与FASTQ的质量值类似。
MAPQ=-10 * log10{mapping出错的概率}
当MAPQ=255的时候,代表MAPQ没有意义,就是一个占位符。
从概率的角度来看,每个read的比对都是一个真实比对的估计,它是一个随机变量,也有可能存在错误。错误的概率可以用 Phred 来衡量。假设一条read的MAPQ的值为 P 表示reads比对错误的概率。
如果mQ 的 值 为 30 ,那么P(比对错误率) 就是 0.1%。
MAPQ的影响因素
基因组重复区域MAPQ会比较低,因为会出现multiple mapping 和 reads聚集的情况;
read 中碱基质量值,低质量值的碱基意味着序列很可能是错误的,错误的序列可能会导致错误的比对,所以MAPQ会低;
比对算法的敏感性,如果比对算法敏感性差,会造成比对错误,MAPQ低;
单双端测序的影响,如果reads两端都可以比对到基因组同一位置,那么比对正确的可能性很大,MAPQ会高;
如果MAPQ在30以上,一般是:
a. read 的全部碱基质量值很高;
b. 比对几乎没有mismatch,1-2bp的mismatch有可能是真是存在的变异;
比对中MAPQ算法
根据mapping的情况,然后结合碱基的测序质量值进行评估。核心思想是,低质量的碱基如果进行了mismatch(错配),那么很有可能是测序错误导致的,不应该罚太多分;低质量的碱基如果与参考基因组完美match(匹配),那么也很有可能是测序错误导致的,不应该加太多分。
在bam文件中,第5列是MAPQ值,一般在后续分析的时候,我们都需要把MAPQ质量过低的reads去掉,一般的cutoff是MAPQ≥10,严格一些的比如去寻找somatic mutation的时候需要MAPQ≥30.
---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
参考链接:https://blog.csdn.net/tanzuozhev/article/details/89115080