生信修炼

不同序列相似度和一致度对比(全局比对和局部比对)

2020-07-11  本文已影响0人  柳叶刀与小鼠标

一致度和相似度

两条长度不同的序列做全局比对,然后计算全局比对中一致字符的个数和相似字符的个数,再除以全局比对的长度,就可以得到它们的一致度和相似度了。比如下面这两条序列:

首先做出它们的全局比对,比对中一致字符的个数是 4 个,全局比对长度 6,一致度=67%。相似字符个数 1,相似度就是(4+1)/6=83%。

把长度相同的两个序列计算一致度和相似度的方法重新规范一下。尽管长度相同,但是做出的全局比对的长度并不一定等于序列的长度,比如下面这两条序列:

上下各加入一个空位,全局比对的长度就不等于序列的长度了。所以不管两条序列长度是否相同,都要先对它们做全局比对。让两条序列先以最优的方式比对起来,再从全局比对中数出一致字符和相似字符的个数,除以全局比对的长度,来得到它们的一致度和相似度。

在线双序列比对

(一)、EMBL全局双序列比对工具
https://www.ebi.ac.uk/Tools/psa/emboss_needle/

目前,使用率最高的是 EMBL 网站的双序列比对工具。输入值非常简单,把要比较的两条蛋白质序列贴在输入框里或者上传。如果想要进一步设置比对的参数,可以点 More options。从这里可以选择使用哪种替换记分矩阵。按照之前讲过的原则,选择 PAM 矩阵或 BLOSUM 矩阵。如果实在不知道选哪个矩阵,就闭着眼睛选 BLOSUME62,下拉菜单里默认选的就是BLOSUM62。


(二)、EMBL局部双序列比对工具
https://www.ebi.ac.uk/Tools/psa/emboss_water/

EMBL的局部双序列比对工具可以选择经典的 Smith-Waterman 算法。More options 里面的参数设置和全局比对是一样的。在这个例子里,我们保持所有参数都为默认值,点提交。

上一篇下一篇

猜你喜欢

热点阅读