生物信息

Batch SMART 最强序列特征[结构域]预测软件

2020-03-21  本文已影响0人  生信石头

写在前面

前天,在学位论文的完善中,有两个疑似ERF成员始终令我困扰。
植物转录因子中有个超家族AP2,包括两个亚家族,一个也叫AP2,另一个叫ERF。前者往往含有两个AP2结构域,后者则只含有一个AP2结构域。但这句话,并不全面。在很多物种中,AP2大家族往往还包括了极少数只含有一个AP2结构域但又不是ERF亚家族的成员。对于这些成员,唯一的操作是建进化树,随后定分支。
那么到底这些成员跟AP2亚家族或者ERF亚家族成员有什么区别?
MEME suite做motif分析,当然能看得出区别。但这个区别是否存在特定的功能,这个只能通过结构域来知晓。
我试了常用的pfam和NCBI CDD,无法得到有用的答案。无意之下,想起了SMART。


这个网站,我研一研二(五六年前)的时候就知道也用过了。可以说,这是我认为最为全面的序列特征预测软件

SMART 的使用困惑

SMART 确实是最强的,但是在使用时,却相对麻烦。整个网站的整体运行逻辑,我个人猜想是:

  1. 收到用户提交的ID或者序列
  2. 查看后台是否保存了对应的ID和序列
  3. 如果保存了,那么就直接返回保存的结果,无需重复计算
  4. 如果没找到可用结果,那么就预测,然后再返回

具体这个网站有两种运行模式:

  1. Single模式,支持输入ID,输入序列
  2. Batch模式,也支持输入ID和输入序列

其中,Single模式支持没找到结果就预测并返回。而Batch模式,则只支持数据库中已收录结果的返回。换句话说,如果你输入的序列集合来自于数据库未收录的物种,那么你得不到结果。或者这么说,只有你使用的序列或者ID正好是数据库已经收录了的,你才会得到结果。
存在少数两三个公众号,没搞清楚就推文说能批量,估计到现在他们都不知道被打脸~~毕竟,只要能忽悠新手,就达到他们的要求 。
然而,我并不是一个喜欢做信息推广的,相反,我更喜欢提供解决方案。既然我发现SMART确实可以找到不同,那么手上一百多个序列,我一个一个提交是不可能的。于是,我又写了一个功能 ,即 Batch SMART

Batch SMART 的使用

多年前,我曾经在 TBtools 中实现了插件模式。后来由于JDK的不断变化,我发现并不稳定,一直没开放。但伴随着 TBtools 用户的增加,不同的用户有不同的需求,确实没必要一直让所有人每次更新 TBtools 软件。于是,在之前更新【即更新搜索框功能】的同时,TBtools的插件模式已经释放。
本次开放的 Batch SMART ,即 TBtools 的第一个插件。对于安装,比较简单。

打开 TBtools 【建议右键图标,以管理员身份运行 - 主要考虑到用户写入权限的问题】



点击安装插件菜单



选择获得的插件包

点击 Open 即可完成安装


安装完成,即可打开



具体的使用更为简单,

  1. 设置蛋白序列集合
  2. 设置输出的序列特征文件路径

注意,点击Start之后 ,就等在进度条加载。一般一个序列要至少15s。由于 SMART 提供的是网站计算服务,如果排队,那么等待时间就更长。我提交了100多个序列,大体半个小时。【注:好东西不怕等】

SMART 做序列特征预测的优势

先看一张 pfam 的。



可以发现,非常干净。当然,如果用NCBI CDD,那么得到的结果比 pfam 全面一点。然而一般。
再看看 SMART 的结果



注意看右上角,如果图片往下走,于是得到结果

写在最后

Emmm... 没有太多想说的。感兴趣的朋友,就到QQ使用交流群下载插件吧【相信,任何人都是秒下】。



具体,记得先更新到 TBtools 的最新版本。以后可能更多功能以插件的方式来释放。这样也免得软件更新麻烦。

上一篇下一篇

猜你喜欢

热点阅读