blast蛋白序列匹配密码子对齐2024-02-20
2024-02-19 本文已影响0人
土雕艺术家
问题出发点在于,cds中终止密码子出现在中间的情况。
推荐解决方案:蛋白序列中*替换为X
中间一个终止密码子坏了满锅汤,在这种情况下还要完成blast、mafft、translatorx,有*肯定不行,那么使用X代替就是可行方案。
ATGGAGCCGGTCATGAGTCTGGCATTGGCCGCCCATTAGCCGCCTAGCATACTAGAGCCGCTGTTTAAGACCGTAACCACGAGCACAACG
MEPVMSLALAAH*PPSILEPLFKTVTTSTT
blastp测试
建库序列
>sample1
CCGGTCATGAGTCTGGCATTGGCCGCCCATGGACCGCCTAGCATACTAGAGCCGCTGTTTAAGACCGTAACCACGAGCACAACG
>sample2
ATG TAG CCGGTCATGAGTCTGGCATTGGCCGCCCATGGACCGCCTAGCATACTAGAGCCGAAGACCGTAACCACGAGCACAACG
>sample3
ATGGAGCCGGTCATGAGTCTGGCATTGGCCGCCCAT TAG CCGCCTAGCATACTAGAGCCGCTGTTTAAGACCGTAACCACGAGCACAACG
#为了提示终止密码子所在位置专门空格,真实序列中没有空格
对应氨基酸序列展示
image.png
搜索序列
>sample3
MEPVMSLALAAHXPPSILEPLFKTVTTSTT
搜索结果
sample3 sample3 100 30 0 0 1 30 1 30 4.13e-19 57.0
sample3 sample1 96.4 28 1 0 3 30 1 28 1.36e-17 53.1
sample3 sample2 86.7 30 2 1 1 30 1 28 1.54e-14 45.4
从结果看是讲蛋白序列中*换为X是不影响blastp检索的
mafft
对齐序列也是不影响的
>sample1
--PVMSLALAAHGPPSILEPLFKTVTTSTT
>sample2
MXPVMSLALAAHGPPSILEP--KTVTTSTT
>sample3
MEPVMSLALAAHXPPSILEPLFKTVTTSTT
translatorx
回译密码子对齐,这才是替换的关键步骤,依然没问题,这样我就放心替换所有蛋白序列中*为X然后完成整个步骤了。
image.png