2022-10-27
Nat Methods | 首次引入密度图进一步改进AlphaFold建模
原创 骄阳似我 图灵基因 2022-10-27 09:32 发表于江苏
收录于合集#前沿生物大数据分析
撰文:骄阳似我
IF:47.99
推荐度:⭐⭐⭐⭐⭐
亮点:
1、机器学习预测算法,如AlphaFold和RoseTTAFold,可以创建非常准确的蛋白质模型,但这些模型通常有一些区域的预测可信度较低或准确性较低。本文假设,通过隐式包含新的实验信息(如密度图),可以准确地预测模型的大部分,这可能协同改善模型中机器学习或实验没有完全解决的部分。
2、本文开发了一种迭代过程,即基于实验密度图自动重建AlphaFold模型,并将重建后的模型作为新的AlphaFold预测的模板。结果表明,除了在实验数据指导下进行的简单重建之外,包含实验信息可以改进预测。这种具有密度的AlphaFold建模的程序已被纳入到解释晶体学和电子低温显微镜图的自动程序中。
先进的基于机器学习的结构预测算法正在改变蛋白质及其复合物的三维结构的获得方式。例如,AlphaFold和RoseTTAFold算法可以基于该蛋白质的氨基酸序列和多序列比对中出现的残基共变异信息,对该蛋白质结构的实质性区域进行准确的预测。预测可以通过包括实验确定的具有相似序列的蛋白质结构来增强。
使用预测模型进行结构确定存在局限性。特别是,机器学习方法通常不能对蛋白质中的所有残基产生准确的预测。这部分是由于许多蛋白质中存在无序片段,但也是由于部分或全部某些蛋白质序列的多序列比对的大小和准确性有限,导致关于残基共变异的可用信息数量有限。
一个相关的限制是,可以采用替代构象的蛋白质部分可以只在其中一个中被系统地预测;这种限制可以通过多个序列比对的替代取样来减少。此外,蛋白质的单个结构域通常可以被准确地预测,但在缺乏广泛的保守相互作用表面的情况下,目前的方法还不能明确地预测结构域之间的空间关系。最后一个限制是,由于这些机器学习方法是在蛋白质数据库(PDB)中的结构上训练的,预测可能偏向于这些已知结构,即使它们没有明确作为预测模板。
近期,在Nature methods杂志上发表了一篇名为“ Improved AlphaFold modeling with implicit experimental information”的文章,提出了这样的假设:新的实验信息可能协同改善结构预测,其中纠正蛋白质链的一部分可能改善链的另一部分的结构预测。将密度图的信息合并到结构预测中的迭代过程可能进一步提高建模的准确性。这将类似于大分子晶体学的情况,即模型的一部分的改进导致晶体相的估计,反过来改进各地的密度图,并允许建立更多的模型。
新的实验信息可以协同证明结构预测,并且密度图中的信息可以以重建模型的形式捕获,并开发了一个自动程序,在该程序中,预测的Alphafold模型被修剪、叠加(对接)在低温密度图上,然后在新的预测周期中将重建的模型与序列一起提供给Alphafold。该程序的输出是一个新的Alphafold模型,通过在预测中使用构建的模板将新的实验信息纳入其中。它通过在预测中使用重建的模板,合并了新的实验信息。将4个循环的迭代算法应用于一个蛋白质链的序列和25个低温电子显微镜结构的全密度图,所有这些都保存在我们使用的AlphaFold版本的数据库创建之后。
在这些测试中,在AlphaFold建模的每个阶段中都包含了多个序列比对。为了模拟PDB中没有类似结构的情况,没有使用PDB中的模板。然后,对于每种蛋白质,检查了获得的四个AlphaFold模型(每个建模周期一个),并将它们与相应的沉积模型和相应的沉积密度图进行比较。
利用密度图的迭代结构预测和模型重建
对原始的AlphaFold模型的改进支持了这样一种观点,即使用密度图重建AlphaFold模型创建的模板包含了来自该密度图的信息,可用于改进AlphaFold结构预测。使用密度图获得的AlphaFold模型也改进了重建的模型,迭代改进了AlphaFold模型,这支持了模型重建与AlphaFold预测协同的观点,产生了比单独任何一种都更好的新模型。
本文的观察结果与这种协同作用来自于为AlphaFold中使用的注意机制提供额外信息的想法一致,但也与其他机制一致。例如,另一个与我们的观察结果一致的假设是,AlphaFold能够改进与真实结构没有太大差异的模型,重建模型可以使其在AlphaFold的收敛半径内。
图1a-f显示,用本文的迭代过程得到的AlphaFold模型和图1c中的绿色模型与沉积的模型(棕色)更相似,而不是单独用序列创建的AlphaFold模型(图1a中的蓝色)或重建的模型(紫色)。图1g-i说明了通过迭代重建和建模对另一个AlphaFold预测的改进。图1j比较了没有考虑和考虑最近沉积的25个结构的密度信息获得的AlphaFold模型的准确性。
图1:使用密度图进行迭代AlphaFold预测和模型重建。
使用在AlphaFold训练时不存在的结构进行验证
在上面描述的案例中,可能有关于正在建模的特定序列的信息出现在AlphaFold参数数据库中,因为在训练AlphaFold时,PDB中可能出现了类似的结构。这项工作比较了相同的AlphaFold预测,除了它们是通过有模板和没有模板进行的,所以这不会直接影响结论,即AlphaFold建模和使用密度图重建是协同的。
然而,有一种可能性是,在这些例子中包含密度信息允许AlphaFold预测使用一些关于类似结构的预先存在的信息,而不是真正地合并来自密度图的新信息。为了解决这种可能性,在进行AlphaFold训练时,对PDB中没有类似结构的结构进行了分析。使用的结构是细菌鞭毛基体的一个结构域。在AlphaFold训练时,具有最相似序列的PDB条目的序列标识仅为9%,并且具有非常不同的结构。AlphaFold可以准确预测该域的部分结构;然而,相对于低温电磁结构,两个反平行链的排列有明显的差异,螺旋的位置也有微小的差异。
使用鞭毛基体(7BGL)结构来测试在不训练AlphaFold的情况下,迭代的AlphaFold预测和模型重建是否有效。在这个测试中,从密度图自动构建的模型的片段被包含在模型重建中,并且只在AlphaFold建模的第一个周期中使用多个序列比对。选择这些选项是为了改进模型重建,并允许重建模型的构象来指导AlphaFold预测。
图2a显示,一个标准的AlphaFold预测导致了一个模型有一些正确的和一些本质上不正确的部分。值得注意的是,棕色沉积模型缺失残基285-315,在密度图中不可见。通过模型重建对AlphaFold模型的迭代,得到的模型与沉积的(7BGL)模型(图2b)更接近。这个迭代的AlphaFold模型比基于r.m.s.d.的原始AlphaFold预测(图2a)要准确得多,这消除了较大的差异。这些观察结果表明,即使在没有任何类似结构的情况下训练AlphaFold,也可以获得迭代AlphaFold模和使用密度图重建模型的协同作用。
图2 :鞭毛基体结构域的迭代AlphaFold预测和模型重建。
应用于低温电子显微镜或晶体学图的自动分析
迭代预测和模型重建的一个直接应用是低温电磁或晶体密度图的自动分析。虽然有工具用于这个目的,但自动地图解释具有挑战性,特别是在没有高分辨率地图的情况下。上述迭代的AlphaFold建模和基于地图的重建过程的输出是一个预测的AlphaFold模型,该模型已经被定位为匹配地图中的密度。预测的模型可能仍然需要密度图指示的一些调整,这种调整可以通过自动细化或重建来进行。所得到的改进或重建的模型是对密度图的相应部分的自动生成的解释。因此,本文的过程也可以看作是一种自动解释密度图的方法,在过程中将密度图的信息合并到AlphaFold建模中。
图3a-d显示,使用图1中所示的SARS-CoV-2刺突蛋白结构的实验密度图,由两个自动工具自动生成的模型,未能创建类似于沉积结构的模型。图3e显示了与图1所示相同的低温电磁图分析的结果,这次是从自动地图解释的角度来看的。在结构未知的真实情况下,每个全密度图的提供没有任何修剪或掩蔽。在该图中要解释的一个链的序列被用来创建一个标准的AlphaFold预测。该预测模型被自动定向以匹配地图,重建以匹配地图中的密度,并包含在下一个AlphaFold预测中。总的来说,发生改进的周期数似乎变化很大,继续迭代可能是有用的,直到模型中的变化很小。这种变化似乎可能是由于我们的重建工具未能找到需要重建的部件的正确结构,而改进或新的重建方法可能会大大改善整个过程。
图3 :当前自动地图解释工具对不清晰的图效果不佳,但可以通过迭代AlphaFold预测和模型重建加以改进。
这里描述的程序不是特定于AlphaFold,低温电磁地图或Phenix模型重建软件用于这项工作,本文期望的协同模型预测和模型重建使用密度图观察这里将一般,类似的结果可以获得使用其他模型预测和模型重建方法和使用其他类型的密度图,如那些在低温断层成像或晶体学。
在这里描述的测试案例中,已经使用AlphaFold预测了低温电子显微镜结构中的单个链,首先没有来自低温电子显微镜密度图中的信息,然后迭代地合并该图中的信息。在许多被检查的案例中,通过使用来自初始AlphaFold预测的模板和使用密度图的自动重建,改进了AlphaFold预测。在实践中,这整个过程可以作为结构确定的第一步,产生一个对接的AlphaFold模型,可以比没有密度图的预测模型更准确。一旦获得了这个对接的预测模型,它就可以手动重建。
教授简介:
Thomas C. Terwilliger
1978年获得哈佛大学物理学专业硕士学位,1981年获加州大学洛杉矶分校分子生物学专业博士学位。工作期间,Thomas和他的同事开发了算法和软件,用于分析来自蛋白质和核酸等大分子的X射线衍射和冷冻电镜数据,并确定它们的三维结构。该项目由LBL的Paul Adams领导,该项目已经生产了一个用于大分子结构测定的综合软件包。软件包包括Thomas的SOLVE / RESOLVE软件以及许多其他强大的算法,包括最大似然分子替换(兰迪·里德的相位器软件),完全最大似然改进(保罗·亚当斯,拉尔夫·格罗塞-昆斯特勒夫和帕维尔·阿福宁的phenix.refine),模型改进和验证(理查森实验室的摩尔概率软件)以及许多其他有用的工具。
参考文献:
Terwilliger, T.C., Poon, B.K., Afonine, P.V.et al.Improved AlphaFold modeling with implicit experimental information.Nat Methods(2022). https://doi.org/10.1038/s41592-022-01645-6