蛋白质结构模拟和分子对接科研信息学生信分析

蛋白质三维结构预测、结果解读与评分

2018-10-11  本文已影响192人  小洁忘了怎么分身

蛋白质三维结构预测,只要有目的基因的氨基酸序列就可以做,不限物种,没有太多要求,可为文章增色。
windows版本的VMD软件可在公众号生信星球回复“VMD”获得,且附带软件中文教程。

一、示例序列

以这段序列为例:

AAGGAATTGACAGAAGAGCAGAGAACACAGCTTTTTGAAGATCTAAAACAGTGTAAAAATTCGACAGATCTTTCCGACGATGAGTTTGAAACGATCATTGCTAAGAAGGAGCTCCCTACTTCGGAAGCAGGCAAATGCTTCACGAAATGCTTGATGGAGAAATTGGATATAATTGAGGATGCTGAAGGAGGGAAGAAGAAAATCAGTGTGATCACGATGCAAGCCTCGCTGGAGGAGAATATGGAAAAGGAAGATGATATTGCTAAAGGGAAGGATATCATCCAGAAATGTGGAGATACAGTGGAGCCCGAAGACAGTTGCGCATATGCATATAATATCTCTAAATGCATTTACGATAGAATGAAGGAGGCAGGCATTTCTCAATAA

如果你有核苷酸序列而没有氨基酸序列,可用NovoPro在线工具转换:
http://www.novopro.cn/tools/translate.html


得到的氨基酸序列为:

KELTEEQRTQLFEDLKQCKNSTDLSDDEFETIIAKKELPTSEAGKCFTKCLMEKLDIIEDAEGGKKKISVITMQASLEENMEKEDDIAKGKDIIQKCGDTVEPEDSCAYAYNISKCIYDRMKEAGISQ

二、三维结构预测的方法

主要介绍同源建模与穿线法。

1.同源建模

网站:swiss-model
原理:相似的氨基酸序列对应着相似的蛋白质结构
要求:找到与目标序列一致度≥30%已知结构作为模板

结果页面解读:

(1)首先看搜到的模板与你的序列一致度是否>30%,如果不大于,要发英文文章此结果就应放弃,用iTASSER重新预测。如果只是看看,发中文或放进毕业论文,20%以上也可继续做。



(2)如果可用,再看swissmodel自带的评分高低。
GMQE :可信度范围为 0-1,值越大表明质量越好
QMEAN4:区间-4-0,越接近0,评估待测蛋白与模板蛋白的匹配度越好。



如果swissmodel预测结果不可用或评分不好,用iTASSER重新预测。

2.折叠识别(穿线法)

网站:iTASSER
原理:不相似的氨基酸序列也可以对应着相似的蛋白质结构。
补充说明:已知的蛋白质结构有十几万个,但其所具有的不同的结构拓扑只有1393个,也就是说,所有结构都落在这1393个拓扑内!因此,选择匹配能量最低的拓扑。
要求:没要求,比较任性。一般是不能同源建模(一致度<30%)的蛋白选用这个方法。

注意:必须用学术邮箱注册。

结果页面解读:

https://zhanglab.ccmb.med.umich.edu/I-TASSER/example/
(1)预测的二级结构

(2)预测的残基可溶性(高度暴露的表面残基:9,深埋的内部残基0)

(3)建模使用的模版及多序列比对。不是序列相似性比对,而是用穿线法穿出来。


(4)预测蛋白质功能,以及有可能与之结合的配体和该配体的结合位点


评估:模型质量评估模型质量评估系数C-score:[-5,2],分值越高,可信度越高。

TM-score:两两结构相似度系数,>0.5说明模型具有正确的结构拓扑,可信,<0.17说明模型属于随即模型,不可信。

RMSD:两两结构间的距离偏差。

3.从头计算法

网站:quark

原理:1973年《science》Anfinsen:蛋白质的三维结构决定于自身的氨基酸序列,并且处于最低自由能状态。模拟肽段在三维空间中所有可能的姿态,并计算出自由能最低的一个。

计算量极大,不常用。

预测完成后下载对应的pdb格式文件,用免费软件VMD可读取,就是你预测的三维结构,VMD打开默认就是这么丑的,之后再说如何调整显示。


二.第三方软件对模型评分

模型预测出来后需要有3个评估软件认为合格才能用,下载PDB文件,提交到测评软件。

saves(一次性提供6个软件评估结果)http://servicesn.mbi.ucla.edu/SAVES/,其中有三个显示通过即表示模型可用。

1.verify 3D

超过80%的残基拥有大于0.2的3D/1D值,则模型质量合格,低于0.2的部分需要进一步修正。

2.procheck

拉氏图检查Cα的两面角是否合理,合格的模型超过90%的残基都应该落在红色(允许区域)和正黄色(额外允许区域)落到其他区域的残基应当被查看并修正。

以PDB中高分辨率的晶体结构参数为参考,给出提交模型的一系列立体化学参数(主链)。其输出结果包括:拉氏图,主链的键长与键角,二级结构图,平面侧链与水平面之间的背离程度等。

3.whatcheck

提交的蛋白结构与正常结构之间的差异,指标贼多,绿色多就当通过了。

4.errat

计算0.35nm范围之内,不同的原子类型对之间形成的非键相互作用的数目(侧链)。得分>85较好,晶体可达到95,一般来说结果在91以内。

5.prove

与预先计算好的一系列标准体积的差别,用z-score来表示,显示模版蛋白质与待测蛋白之间的匹配程度,越高越好。
以刚才的同源建模文件为例:


微信公众号生信星球同步更新我的文章

友情链接:
生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
B站链接:https://m.bilibili.com/space/338686099
YouTube链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程师入门最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
学徒培养:https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw

上一篇下一篇

猜你喜欢

热点阅读