数据库/分析工具

PNAS | ConPLex:一种使用预训练蛋白质语言模型的机器

2025-03-10  本文已影响0人  尐尐呅

在药物发现的流程中,一个关键的限制步骤是对感兴趣的蛋白靶标进行潜在药物分子的实验筛选。快速准确地进行药物-靶标相互作用(DTI)的计算预测可以加速药物发现过程。近日,《Proceedings of the National Academy of Sciences》发表了一种使用预训练蛋白质语言模型的机器学习方法——ConPLex,用于预测药物-靶标结合,快速筛选候选物进行深入研究。

ConPLex是什么?

ConPLex是一种快速的纯序列基础的DTI预测方法,利用预训练蛋白质语言模型(PLM)的丰富特征化,证明其在大规模DTI预测任务上能够产生最先进的性能。ConPLex的突破来自于两个主要思路的结合,克服了以前方法的一些局限性:信息丰富的基于PLM的表示和对比学习。

ConPLex中的“PLex”部分有助于缓解DTI训练数据有限的问题。从PLM开始,通过使用“Con”部分直接解决了架构中的细粒度特异性问题:一种蛋白质锚定的对比共嵌入,将蛋白质和药物共同置于潜在空间中。这种共嵌入通过使真实相互作用伙伴和伪靶在广泛泛化和高特异性之间实现分离。

ComPLex模型架构和训练框架概述

ConPLex的性能测试结果

ConPLex在低覆盖率和零样本相互作用上取得了最先进的性能:ConPLex的一个关键进展是使用预训练的PLM来表示蛋白质。下图展示了ConPLex在三个低覆盖率基准数据集(BIOSNAP、BindingDB和DAVIS)上取得的最先进性能;此外ConPLex能够实现最佳的零样本预测性能,进一步证明了该模型在大规模、非常低覆盖率的预测任务中的适用性。

ConPLex是高度准确的,并在低覆盖率的环境下具有广泛的概括性

对比学习使得高特异性DTI映射成为可能:ConPLex另一个重要进展是使用对比学习来对高覆盖率数据进行模型预测的微调,以达到高特异性。

对比训练可以高度特异性地区分药物和“诱饵”

ConPLex发现了亚纳摩尔级别结合亲和力的药物-靶标相互作用:开发团队以无偏的方式选择了19个激酶和14种化合物的相互作用(这些配对是仅基于ConPLex的最高得分预测选择的,没有使用任何来自实验结果或文献的先前知识。),确定了每个相互作用的KD值,发现被测试的19个配对中,有12个的KD值小于100 nM。其中,有四个的亲和力表现为亚纳摩尔级别,并且全部重复了文献中已知的相互作用。

我们选择并测试了 19 种潜在的结合相互作用,其中测试的选择完全基于 ConPLex 预测的相互作用,没有参考以前的实验或文献

将药物结合信息纳入其中可以提高蛋白质表示。

ConPLex 学习到的共享表示空间捕获 DTI 和蛋白质功能

综上,ConPLex适用于大规模化合物或目标筛选以及细粒度、高度特定的结合预测,有速度快、可区分低覆盖和高覆盖的药物-靶标相互作用(DTI)预测、可适应于二进制情况以外情形对结合亲和力进行预测等优势。ConPLex可在如下链接中获取开源版本:ConPLex.csail.mit.edu.

参考文献

Singh R, Sledzieski S, Bryson B, et al. Contrastive learning in protein language space predicts interactions between drugs and protein targets[J]. Proceedings of the National Academy of Sciences, 2023, 120(24): e2220778120.

首发公号:深圳国家基因库大数据平台

上一篇 下一篇

猜你喜欢

热点阅读