生物信息学札记生信生物信息学

如何将核酸序列转化为蛋白氨基酸序列(web tools篇)

2019-11-21  本文已影响0人  天地本无心

在我们的工作中,常常会有将一段未知或已知核苷酸序列(DNA/RNA)翻译成氨基酸序列的需求。如果编程基础过硬的话,自己写个代码翻译三联密码子,正义链和反义链各三个移码阅读框。但是我们更多的时候,这种小的需求,根本不需要去写个脚本来解决,有很多在线的工具能够帮我们做到这一点。在这里举例说明。

Tool 1: expasy翻译组件

Expasy是一个包含很多工具的web tools集合,但我们这次用到的只是他的其中一个功能,即核酸序列翻译功能。点开网页https://web.expasy.org/translate/, 界面如下:

expasy translate功能界面

右边可以选择输出文件的格式,以及从哪个链上寻找翻译框,在不知道蛋白编码方向的情况下,最好是全部选上。以水稻条纹病毒(RSV)的某个分离物的CP的基因序列为例(NCBI accession number: AY286101.1)。

当我们将序列粘贴到框里之后,点击translate按钮,就会得到如下输出: AY286101.1序列翻译结果

会输出6个移码阅读框,然后结果就是3'-5'翻译的那一条结果。


expasy可视化信息相对直接,但是它有一个坏处,即不支持批量提交。如果我们有成百上千条序列,expasy的功能就显得比较不够用了。接下来我们介绍另外一个支持多条序列同时翻译的工具。

Too2 1: emboss下的transeq

EMBOSS是由EBI开发的一个工具,既有本地版,也有在线版。

点开https://www.ebi.ac.uk/Tools/st/emboss_transeq/, 会看到如下界面:

EMBOSS transeq输入界面

可以直接粘贴或者上传符合EMBOSS transeq支持的文件格式,EMBOSS支持的格式可以参考emboss支持格式链接,常见的raw sequence或者fasta格式的文件肯定格式可以支持的。

可以选择All six frame, 也可以选择某一条链的某一起始位点的移码框,也可以选择codon table, 然后点击submit。任务就会被提交到后台上,亲测速度还是非常快的。

最后输出结果如下:

EMBOSS输出结果如下

最后对每个序列都是输出6个fasta, 对应6种编码框,然后可以将结果下载下来之后,移除错误的编码序列。将保留下来的序列去做进化分析或者其他后续处理。


后记:工具很多,选择自己习惯的就好。
Done.

上一篇 下一篇

猜你喜欢

热点阅读