生信基础知识试读

NCBI ORFfinder结果在线可视化

2022-07-12 本文已影响0人微生信

1，ORF简介

开放阅读框（Open Reading Frame，ORF）从起始密码子开始，到终止密码子结束的连续碱基序列，具有蛋白质编码潜能。由于密码子（codon）读写起始位点的不同，mRNA序列可能按照6种ORF阅读和翻译。如图1所示，对于序列1，可以从A开始读，也可以从T开始读，也可以从G开始读，因此一条序列上就有3种读码方式。同样的，互补链上也有3种，共6种ORF阅读方式。理论上，6种读码框都有“开放”的可能，但是现实世界中，生物体一般会使用不多于2个“开放读码框”。

图1. 6种读码框示意图

2，NCBI ORFfinder

ORF识别是确定哪种开放阅读框对应真正的多肽编码序列的过程。NCBI ORFfinder为最常用的ORF预测在线工具，使用也非常简单。

2.1，打开NCBI ORFfinder网站

在浏览器中输入网站：https://www.ncbi.nlm.nih.gov/orffinder/

图2. NCBI ORFfinder

2.2，粘贴序列并选择参数

Fasta格式文件是存储核酸或者蛋白质序列的一种标准格式。是以大于号“>”开头，后边接序列名字为第一行，其余行为序列的一种标准序列存储文件格式。如图所示：

图3. Fasta格式序列

这个文件中包含两条序列，一条是seq1，一条是seq2。

进行ORFfinder预测时，我们要将fasta格式的序列拷贝粘贴到输入框中（一次一条）。

这里我们粘贴来自lncipedia（https://lncipedia.org/，lncRNA百科全书网站）的一条lncRNA序列PITPNM2-AS1:6进行预测。然后选择参数（一般默认）。最后点击提交按钮，等候几秒钟后会出现结果。

图4. NCBI ORFfinder序列提交及参数选择

2.3，结果查看

结果包括：

1，预测的ORFs

2，6种读码框（需要点击Six-frame translation处按钮才显示）

3，每个预测的ORF所处的读码框、坐标及长度（核苷酸|氨基酸），可以下载查看具体核酸序列及氨基酸序列等

4，对应的氨基酸序列，可以进行blast等操作

图5. NCBI ORFfinder结果

然而，相较于旧版ORFfinder（图5），新版NCBI ORFfinder的结果不好在论文中展示。苦寻无果后，我们参考文献中旧版ORFfinder的样式，开发了在线ORFfinder结果可视化功能。

图6. 旧版NCBI ORFfinder结果

3，ORFfinder在线可视化（仿旧版）

3.1，打开绘图页面

微生信-在线NCBI ORFfinder结果可视化 (bioinformatics.com.cn)

图7. ORFfinder可视化页面

3.2，拷贝示例数据

下载示例数据，该模块的输入为第一个sheet的内容。

（可以将第2个sheet的序列提交到NCBI ORFfinder，默认参数，获得sheet1的内容）。

图8. 输入数据示例

第一列为ORF的名字（label），第二列为链（Strand），第三列为读码框编号（Frame），第4、5列为ORF的起始和终止坐标，第6列为长度，包括核酸和蛋白的长度。

3.3，粘贴示例数据

必需输入包括两个：1，orffinder的结果，2，序列总长度（可由NCBI ORFfinder结果中查到）

图9. 必需输入

3.4，修改参数，并提交

图10. 颜色等参数

开放了图片尺寸，ORF颜色，最长ORF颜色等参数，以满足不同的绘图需求。

3.5，提交出图

结交约3秒后，在页面右侧出现结果预览图，其中最长ORF用紫红色标注。我们提供了4种图片格式供下载使用，两种矢量图（pdf，svg）和两种标量图（600 dpi tiff和300 dpi png）。

图11. 仿ORFfinder旧版可视化结果

注意：旧版中坐标小的在左侧，大的在右侧，跟新版略有不同。这里使用的左侧小，右侧大的排序方式。

没有预览就是没有出图，这时请参考示例数据，检查输入数据格式！

遇到文字截断，需要修改字体、调整字体大小等，使用scape 软件。

上一篇下一篇

猜你喜欢

热点阅读