chapter65 序列比对算法alignment
2020-03-14 本文已影响0人
esroom
1.序列比对的作用
大致分为两种:
- 比对两个序列的相似性,比如TA克隆序列和目标序列是否一致;
- 寻找与目标序列最接近的序列,比如生成进化树等
比对中最主要的因素:
- 比对算法,包括global, local, semi-local
- 打分体系
这两者都对比对的结果会有关键影响
打分体系
1. 引入三个概念,gap 和 match,mismatch
gap:用"-"表示
match:用"|"表示匹配
mismatch:用"·"
2.哪个序列在上方是否影响比对结果?
不影响比对结果,即得分;但会影响结果的解释。
如下图,左右得分相同,但是左图解释为下链比上链有AAA的deletion和一个G的insertion;右图则为下链比上链有AAA的insertion和一个G的deletion。
3.打分
含义:通过给不同状态赋予不同的分数,计算两条链比对最终得分,取得分最高为比对最优结果。
比如:
match=5 分
mismatch = -4 分
gap = -10 分
gap长度加1 = -0.5 分
如下比对结果中,第二种比对得分最高,因此是最优比对。
中间最优
但是大多数情况下,某一条链都比对完即比对结束,因此以上比对结果修改为:
左侧最优
但是实际打分矩阵更加复杂
以下是一个NCBI上的打分矩阵,字母含义见碱基单字母命名方法https://www.cnblogs.com/triple-y/p/10151803.html
打分矩阵不包括gap的罚分
SAM文件中的CIGAR
CIGAR (Compact Idiosyncratic Gapped Alignment Report):表示序列和比对基因组的比对结果
比如以下序列:
意思是:4mismatch---3个deletion---3个match---1个mismatch---2个match...