细说alignment
下图表示一对PE read,和三条SE read的比对情况
![](https://img.haomeiwen.com/i27226870/79d4c968c1eb07f4.png)
Linear alignment
Linear alignment: 线性比对表示一个read比对到单个参考序列,可以存在插入,缺失,跳过(skip),剪切(clip), 但是不存在方向改变的情况(比如说一部分和正链比对,另一个位置则是和负链比对)。最简单的判断的方式就是,一个linear alignment只用一行记录,比如r003和r004。
multiple mapping: 假如有一个短序列,他在比对的时候看到哪哪都有他的影子,这种就是受重复区域影响比较大,所以read越长出现这种的可能性越低。一般指定首先匹配上的为最优匹配结果primary。其他的被视为secondary alignment,可以通过0x40 和 0x80 flags识别。primary alignment一般被认为是最好比对。
Chimeric alignment
Chimeric alignment: 嵌合比对,嵌合比对” 的形成是由于一条测序read比对到基因组上时分别比对到两个不同的区域,而这两个区域基本没有overlap。因此它在sam文件中需要占用多行记录显示。只有第一个记录被称作"representative",其他的都是"supplementary"【Chimeric reads are also called split reads】。比如r003第一个记录是后6个匹配,第二个记录则是反向序列的后5个匹配。如果发现嵌合比对,最好的比对top hit标记为soft clipping,其余的则标记为hard clipping。这里第一个记录比第二条记录截掉的碱基少,所以第一条记录是softclip。
将其中的一条sam文件作为represent alignment(r003第一次比对信息),而另一条作为supplementary alignment (flag为2048,r003第二次比对信息)。
补充:
bwa mem的-M -Y参数:
-M:mark shorter split hits as secondary。就是把supplemenary alignment 变为no primary(flag值256) 。下面是bwa mem -M的结果
![](https://img.haomeiwen.com/i27226870/c423d01ddb3e4be1.png)
-Y:use soft clipping for supplementary alignments。把默认的supplementary alignmentshard clip变为soft clip。hard clip 不会显示不匹配的碱基串,soft clip会显示不匹配的碱基串。下面是bwa mem -Y的结果
r003 第一个比对信息 不加Y (默认),结果6H5M TAGGC, 加上Y 结果6S5M ttagctTAGGC
bam flag查询
通过flag 我们可以推测比对信息
1 : 代表这个序列采用的是PE双端测序
2: 代表这个序列和参考序列完全匹配,没有插入缺失
4: 代表这个序列没有mapping到参考序列上
8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上
16:代表这个序列比对到参考序列的负链上
32 :代表这个序列对应的另一端序列比对到参考序列的负链上
64 : 代表这个序列是R1端序列, read1;
128 : 代表这个序列是R2端序列,read2;
256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的
512: 代表这个序列在QC时失败了,被过滤不掉了(# 这个标签不常用)
1024: 代表这个序列是PCR重复序列(#这个标签不常用)
2048: 代表这个序列是补充的比对(#这个标签具体什么意思,没搞清楚,但是不常用)
感谢 微信公众号 生信从入门到放弃 、简说基因、简书用户JeremyL