生信猿生物信息学与算法生物信息学习

蛋白质序列的替换记分矩阵

2019-03-31  本文已影响2人  Gnaw

1.等价矩阵:

与DNA等价矩阵的道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。

2.PAM矩阵:

PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界容易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值。PAM-1自乘n次,可得到PAM-n,即发生了更多次突变。

3.BLOSUM矩阵:

BLOSUM矩阵是通过关系比较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似度高(>85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似度是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同的编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致度≥80%的序列计算而来,同理,62是指该矩阵是由一致度≥62%的序列计算而来。


现在我们总结一下到底是选 PAM-几或 BLOSUM-几?


但是PAM并不是几号都有,例如氨基酸差异为80%时,要选PAM-246,但是并没有,所以选择PAM-250。

对于关系较远的序列之间的比较,由于PAM-250是推算而来,所以准确度受到一定限制,BLOSUM-45更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果差别不大。

最常用的BLOSUM-62

4.遗传密码矩阵:

遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目得到的,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以是一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1 ; 如果需要2个碱基的改变,则替换代价为2 ; 再比如从Met到Tyr三个密码子都要变,则代价为3.
遗传密码矩阵常用进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是在蛋白质序列比对中,尤其是相似度很低的序列比对中,很少被使用。


遗传密码矩阵

5.疏水矩阵:

根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水性不发生太大变化,这种替换得分高,否则替换得分低。该矩阵物理意义明确,有一定的理化性质依据,适用于偏重蛋白质功能方面的序列比对。在这个矩阵里,氨基酸按照亲疏水性排列,前面是亲水性,后面是疏水性。


疏水矩阵

有了替换记分矩阵,就可以知道哪些氨基酸是相似的。

例如:


我们可以从BLOSUM-62中读出,L和I 相似,K和L不相似。则:一致度=2/4=50%
相似度=(2+1)/4=75%

如果两个序列的长度不相同,怎么计算一致度与相似度?


需要先系统的学习比较两个序列的方法。

上一篇 下一篇

猜你喜欢

热点阅读