便捷工具

一文看懂AlphaFold2&3输出结果的json文件内容

2024-10-14  本文已影响0人  学了忘了学

2024年诺贝尔化学奖揭晓,一半授予大卫·贝克(David Baker),以表彰他在计算蛋白质设计领域的卓越贡献;另一半则由德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper)共同获得,表彰他们在蛋白质结构预测方面取得的突破性成就。

AlphaFold 3 已具备药物设计的能力,能够精确预测药物中常见分子(如配体和抗体)的结构。这些分子可以与蛋白质结合,从而调控蛋白质在人体健康与疾病中的相互作用。在预测药物与蛋白质的相互作用(如配体与蛋白质、抗体与靶蛋白的结合)方面,AlphaFold 3 实现了前所未有的准确度。

AlphaFold2 是 DeepMind 在 2020 年发布的蛋白质结构预测模型,利用进化信息和深度学习方法,极大地提升了蛋白质结构预测的准确性。AlphaFold3 是 AlphaFold2 的升级版,增加了更多的功能并提升了性能。虽然 AlphaFold3 仍未正式发布,但根据预期,AlphaFold3 在多个方面可能做出改进。并且最新的De novo design of high-affinity protein binders with AlphaProte 中,利用af2和af3进行对binder的筛选,下面将主要从AlphaFold3的预测结果入手,分别解释输出文件中哪些指标可以作为筛选的标准。
网页版的AlphaFold3预测结果summary_confidences.json结果举例:

{
 "chain_iptm": [
  0.92,
  0.92
 ],
 "chain_pair_iptm": [
  [
   0.92,
   0.92
  ],
  [
   0.92,
   0.85
  ]
 ],
 "chain_pair_pae_min": [
  [
   0.76,
   1.29
  ],
  [
   1.4,
   0.76
  ]
 ],
 "chain_ptm": [
  0.92,
  0.85
 ],
 "fraction_disordered": 0.0,
 "has_clash": 0.0,
 "iptm": 0.92,
 "num_recycles": 10.0,
 "ptm": 0.92,
 "ranking_score": 0.92
}

pLDDT

pLDDT(Predicted Local Distance Difference Test)是 AlphaFold 输出中的一个关键指标,用来评估模型对每个残基(氨基酸)位置的预测置信度。它反映了 AlphaFold 对蛋白质结构中每个位置的预测准确度。


图1 pLDDT 结果展示

pLDDT 的数值范围和意义

数值范围:pLDDT 分数在 0 到 100 之间。
90-100:非常高的置信度,表示预测的结构非常可靠,通常是蛋白质的核心区域。
70-90:较高的置信度,表示该部分结构较为可信,但可能在局部有些不确定性。
50-70:中等置信度,通常表示该区域结构不稳定或柔性较大,如无序区域或环。
低于 50:低置信度,表示预测模型对该部分结构的准确性非常不确定,可能是无序区域或灵活的末端结构。
pLDDT 值越高,模型对该区域结构的预测越有信心,值越低表示模型对该区域的预测不确定性更高。

pLDDT 在复合物预测中的作用

  1. 评估每个链的局部结构准确性:
  1. 识别链间相互作用界面:
  1. 区分稳定区域与柔性区域:

4.过滤低可信度结构:

PAE

PAE(Predicted Aligned Error,预测比对误差)是 AlphaFold2 用来衡量模型对两个残基在预测结构中相对位置的置信度的指标。PAE 的定义是,当预测结构与实际结构在某个残基 Y 上对齐时,残基 X 的预期位置误差,单位为埃(Å)。

因此,PAE 实际上是衡量 AlphaFold2 对不同结构域的排列是否合理以及这些结构域在预测结构中的相对位置是否准确的置信度。

数值解释:

在蛋白质复合物预测中,PAE(Predicted Aligned Error,预测比对误差)同样具有重要作用,帮助评估多链复合物中不同蛋白质或结构域之间相对位置的预测置信度。由于复合物预测涉及多个蛋白质或不同亚基的相互作用,PAE 可以帮助用户理解这些蛋白质或亚基之间的相对位置准确性,从而评估复合物整体预测的可靠性。

PAE 在复合物预测中的作用:

  1. 评估链间相互作用的准确性:
  1. 识别相互作用界面:
  1. 多链蛋白质的结构排列:
  1. 揭示柔性区域和结构域运动:

在很多文章中,都是PAE的数值作为过滤的标准,例如Improving de novo Protein Binder Design with Deep Learning 中以AF2预测结果中pae interaction<10作为binder过滤的阈值。在最新的AF3中,AlphaProteo以 min pae interaction < 1.5 作为过滤的标准。同样对于pae,过滤的阈值确实不一样的,他们是怎么样得到这个数值的呢?下面我将以PAE矩阵为基础,详细的介绍计算方法。

图2 PAE

首先,简单的将PAE预测分成四个区域1,2,3,4。那么1和2分别代表的是binder和target protein,3和4则代表binder和target protein的互作,过滤的数值就是通过3和4来计算的。并且我们要知道,虽然3和4是对称的,但是他们的数值确实不同的。

在AF2,Improving de novo Protein Binder Design with Deep Learning 中:

  1. 分别计算区域3和区域4的均值mean1和mean2;
  2. 再进一步计算mean1和mean2的均值,得到pae interaction,并利用这个数值进一步进行过滤。

在AF3,AlphaProteo中:

  1. 分别计算区域3和区域4的最小值min1和min2;
  2. 再进一步计算min1和min2的最小值,得到 min pae interaction ,并利用这个数值进一步进行过滤。

再AF3的网页版预测结果中,我们可以直接看summary_confidences中的 chain_pair_pae_min结果,以上面的结果举例,

图3 pae result
如图3所示,[[0.76,1,29],[1.4,0.76]],在图2中代表的区域分别是[[1,3],[4,2]]每个区域的最小值,我们直接可以通过这个结果得到1.29作为min pae interaction来进一步过滤。

PTM

Predicted Template Modelling (pTM) 是 AlphaFold2 中的一种扩展评分,用于评估预测的蛋白质结构的整体准确性,特别是对不同结构域和多链复合物的相对位置进行评估。与用于评估局部结构准确性的 pLDDT(predicted Local Distance Difference Test) 不同,pTM 主要针对蛋白质的全局结构,包括结构域之间和不同链之间的相对关系。

pTM 的核心概念

在AF3的summary_confidences结果中,有两个ptm结果:

pTM 是一个综合指标,用于衡量 AlphaFold-Multimer 对复合物整体结构的预测效果。它是预测结构与假设真实结构之间的预测 TM 评分。TM 评分超过 0.5 表示复合物的整体预测折叠可能与真实结构相似;而 TM 评分低于 0.5 则意味着预测结构可能是错误的:pTM 评分遵循相同的定义。需要谨慎解读 pTM 评分。例如,假设一种情况,其中一个相互作用的蛋白质较大且结构预测正确,而较小的伴侣蛋白结构预测不准确。结果,复合物的 pTM 评分可能会受到较大蛋白质的主导,显示出超过 0.5 的 pTM 评分。相比之下,ipTM 测量形成蛋白质-蛋白质复合物的亚基的预测相对位置的准确性。

ipTM

iPTM(interface predicted TM-score) 是一种度量,用于评估预测的蛋白质-蛋白质复合物中蛋白质间界面的准确性。它基于 TM-score 的概念,但专注于预测的蛋白质复合物中不同蛋白质之间的界面相互作用。

iPTM 的作用

ipTM 可能比 pTM 对用户更有用。这是因为子单元相对位置的预测质量和整个复杂预测的质量是高度相互依赖的:如果子单元的相对位置正确(如高 ipTM 分数所反映),用户可以期望整个综合体也是正确的。

在AF3的summary_confidences结果中,有三个iptm结果:

其他

参考

PAE: A measure of global confidence in AlphaFold2 predictions | AlphaFold (ebi.ac.uk)
2409.08022 (arxiv.org)
AlphaFold 服务器 --- AlphaFold Server (google.com)

上一篇 下一篇

猜你喜欢

热点阅读