双序列比对工具

2020-05-20  本文已影响0人  Peng_001

EMBI 双序列比对

https://www.ebi.ac.uk/Tools/psa/

EMBI 的在线双序列比对工具提供了三种选项,1)全局比对;2)局部比对;3)全基因组比对。
并且每一个比对工具下提供了不同算法的选择。

小试牛刀

这里我使用的uniprot 中的ABCB1 的两种亚型的数据。
https://www.uniprot.org/uniprot/P08183#sequences

选择Needleman-Wunsch 算法的全局比对,先来试试看。


输入序列值

这一步非常简单,将蛋白质序列贴在输入框即可。

可以手动输入,也可以上传文件。


但是embi 对文件格式也做了一定的要求。


设置比对参数


遇事不绝,BLOSUM62 就完事儿拉。(embi 也帮我们设定好了默认的参数)

gap 为罚分情况,而这里的gap 也分了很多种。

查看结果

返回的结果分为两个部分。

第一部分

第一个部分是比对相关设定的参数,以及最终比对的概要,如长度,一致度、相似度、空格,得分。


第二部分

第二部分则是序列比对的具体信息


左边是序列的名字(ps:实际使用发现,对于序列名称较长时,工具无法读完整,因此尽量不要把两条序列的名称弄得太长)

右边则是序列部分。
上下分别是两条序列的信息。而连接两条序列的中间部分,则表示序列匹配的具体情况。


左右分别表示起始或末尾的字母,实际在序列中的位置。


表示 R 在该序列中,位于1186位置。

聊一聊gap 的类型

还记得在操作时,第二步提供了gap 罚分的参数选项吗?


实际上,这些gap 也有不同的类型。针对不同类型的gap,调整不同的罚分,可以使结果更加准确。


gap open,便是一系列空格中,开头的那个空格。领头的自然牛一些,因此分数也罚的高。
gap extend,便是跟着gap open 的一系列延伸的空格。跟班的自然比不过打头的,分也低了不少。

结尾也可以设定gap 罚分
end gap penalty 默认为false,若设定为true 则可以使用结尾的gap 罚分。但一般亲缘关系较近且大多数情况下,一般不使用结尾gap 罚分。

不同gap 下的结果

当我们给gap open 大 ,如 10分,gap extend 小,如0.5分的时候。
结果里的空格在序列比对中的位置就相对非常集中。



自然是因为分散的gap 代价太大了。

而同理,当我们给gap open 小 ,如 1分,gap extend 大,如5分的时候。结果里的空格也相应的非常分散。


选择适当的gap 罚分

既然两种不同的罚分设定会造成序列比对结果的差异,该选择哪种方式呢?

比如下面就有两个很典型的情况。gap 集中 or gap 分散?

1)有两条相似的待比对序列,是同源序列,因此它们的功能和结构也相似。其中一条序列结构已知,而另一条未知。想通过序列比对,用已知结构序列作为模版,预测另一个序列的结构。(分散)
2)有两条待比对序列,且已知它们大部分区域都是非常相似的,但其中一个序列的功能区,在另一个序列中是缺失的。想要通过序列比对,将另一个序列的功能区找出来。(集中)

如果你对于结果没有什么预期,例如只是为了单纯地比较两个不同的序列,则可以使用默认的罚分参数,即 gap open = 10, gap extend = 0.5。

局部序列比对

局部比对提供了三种算法


尝试一下

选择最经典的 Simith-Waterman 算法

其他所有的步骤都和全局比对是差不多的。

我们可以使用PSA 提供的范例数据

从比对结果来看,长度也少了不少,因为只把黑色的相似部分做了序列比对。



使用局部比对的情况

一般来说,除了当一长一短的情况时,当两条序列长度差不多时,也可以使用局部比对,以发现两条序列最相似的部分。


有的时候,两条序列并不同源,只是有相似的功能区域,使用局部比对可以非常快速的定位该区域在序列中的位置。

其他双序列比对的算法


除了之前介绍的EMBL pairwise sequence alignment 外,还有其他许多平台提供 全局/局部 双序列比对的算法。
而主要应用的也是 Simith-Waterman 算法(局部) 以及Needleman-Wunsch 算法(全局)。只是在基础上有所变化。

biotools

一个老师开发的比embl 只多不少的双序列比对工具(滑稽.jpg)
还可以给出得分矩阵的作图结果


上一篇下一篇

猜你喜欢

热点阅读