blast蛋白序列匹配密码子对齐2024-02-20

2024-02-19  本文已影响0人  土雕艺术家

问题出发点在于,cds中终止密码子出现在中间的情况。
推荐解决方案:蛋白序列中*替换为X

image.png

中间一个终止密码子坏了满锅汤,在这种情况下还要完成blast、mafft、translatorx,有*肯定不行,那么使用X代替就是可行方案。

ATGGAGCCGGTCATGAGTCTGGCATTGGCCGCCCATTAGCCGCCTAGCATACTAGAGCCGCTGTTTAAGACCGTAACCACGAGCACAACG
MEPVMSLALAAH*PPSILEPLFKTVTTSTT

blastp测试

建库序列

>sample1
CCGGTCATGAGTCTGGCATTGGCCGCCCATGGACCGCCTAGCATACTAGAGCCGCTGTTTAAGACCGTAACCACGAGCACAACG
>sample2
ATG TAG CCGGTCATGAGTCTGGCATTGGCCGCCCATGGACCGCCTAGCATACTAGAGCCGAAGACCGTAACCACGAGCACAACG
>sample3
ATGGAGCCGGTCATGAGTCTGGCATTGGCCGCCCAT TAG CCGCCTAGCATACTAGAGCCGCTGTTTAAGACCGTAACCACGAGCACAACG
#为了提示终止密码子所在位置专门空格,真实序列中没有空格

对应氨基酸序列展示


image.png

搜索序列

>sample3
MEPVMSLALAAHXPPSILEPLFKTVTTSTT

搜索结果

sample3 sample3 100 30  0   0   1   30  1   30  4.13e-19    57.0
sample3 sample1 96.4    28  1   0   3   30  1   28  1.36e-17    53.1
sample3 sample2 86.7    30  2   1   1   30  1   28  1.54e-14    45.4

从结果看是讲蛋白序列中*换为X是不影响blastp检索的

mafft

对齐序列也是不影响的

>sample1
--PVMSLALAAHGPPSILEPLFKTVTTSTT
>sample2
MXPVMSLALAAHGPPSILEP--KTVTTSTT
>sample3
MEPVMSLALAAHXPPSILEPLFKTVTTSTT

translatorx

回译密码子对齐,这才是替换的关键步骤,依然没问题,这样我就放心替换所有蛋白序列中*为X然后完成整个步骤了。


image.png
上一篇下一篇

猜你喜欢

热点阅读