【ZT】Johannes小组JCIM论文:用于预测Frequen
利用高通量筛选和虚拟筛选寻找先导化合物的方法被广泛应用于新药研发,但“不良化合物”(Badly behaving compounds)的存在使得这类方法的准确性大大下降。不良化合物通常包括“Aggregators”、“反应活性物质”、“假阳性化合物”等等,而他们中大部分都属于“frequent hitters”。它们不仅会引发错误的生化分析结果,而且有可能误导后续一系列基于错误假设的研究,浪费大量的时间和资源。因此,发展可以识别“不良化合物”的可靠方法具有很高的应用价值。
德国Hamburg大学J. Kirchmair小组研发的Hit Dexter1就是这样一款基于机器学习模型的Frequent Hitters预测软件。它从PubChem生物活性数据库中获取大量数据集,并根据active-to-tested ratio (ATR) [注:ATR=A/T(A为与指定化合物发生反应的蛋白质的数量,这里涉及到的生物活性试验是confirmatory dose-response assays (CDRAs),T为蛋白质总数)]将数据集中的化合物分为“highly promiscuous” (HP)、“promiscuous” (P)、“non-promiscuous” (NP)三类,然后建立了两种不同类型的二元分类模型:一种区分promiscuous和non-promiscuous (P-NP),另一种区分highly promiscuous和non-promiscuous (HP-NP)。结合PC20(20为CDRAs中蛋白质数量)和PC50这两个数据集,共产生了四个不同的模型。接下来对几种机器学习算法和描述符集进行混合搭配,得出四种模型的Matthews相关系数 (MCC)和Receiver operating characteristic curve(AUC)的下面积值,通过比较确定了将extra tree classifiers(ETC)与Morgan2指纹图谱相结合的模型具有更好的性能。
近日J. Kirchmair教授在美国化学会出版的Journal of Chemical Information and Modeling杂志上发表了题为"Hit Dexter 2.0: Machine-Learning Models for the Prediction of Frequent Hitters"的论文(J. Chem. Inf. Model. 2019, 59, 1030-1043),介绍了Hit Dexter的2.0版本2。与第一代相比,除了诸如数据集的准备和建模策略等一些细节上的改进以外,大幅度的改进包括:(****1)蛋白质聚类方法的实现,避免训练集中结构和功能相关蛋白的过度表达;(****2)机器学习中primary screening assays (PSAs)数据的引入。(如图1)作者通过主成分分析(PCA)和成对相似性分析,对PSA和CDRA两种数据集进行比较,从图中可以看出两种模型的化学空间覆盖情况基本吻合。虽然两种模型的预测结果基本一致,但由于具有不同的敏感性,所以平行使用两种分类器。
最后,通过从测试集中移除与训练集相似的结构(即减小Tanimoto系数)对模型的鲁棒性进行探究,从图2中可以看出当Tanimoto系数为0.8时MCC值为0.55 ~ 0.58,AUC值为0.90 ~ 0.95;而当Tanimoto系数为0.7时 MCC值在0.44 ~ 0.50之间,AUC值在0.87 ~ 0.92之间。两组数值变化并不明显。由此证明模型对frequent hitters的预测具有较高的鲁棒性。
图-2 PSA50和CDRA50的化学空间比较
为了更好地理解Hit Dexter 2.0的应用范围和局限性,作者利用Hit Dexter 2.0模型对七种特征明显的数据集(dark chemical matter (DCM)、aggregators数据集、Enamine HTS数据集、ChEMBL数据集、DrugBank中已批准药物、潜在PAINS数据集以及天然产物数据集)进行了预测并对其结果进行分析。如图3A所示,默认决策阈值为0.5,DCM数据集中的化合物至少有96%被预测为nonpromiscuous。已知DCM是一个非活性数据集故其中化合物不可能为frequent hitters,这与检测结果相符,说明Hit Dexter模型对于DCM库具有很好的预测性能。接下来对于B、C、D、F四个数据库的预测结果也都体现出Hit Dexter模型良好的预测性能。如aggregators数据库对应的promiscuous值较高约为15%,这与aggregators会在特定的检测条件下导致假阳性的检测结果有关。最值得关注的是DrugBank中已批准药物的数据集,从图3E可以看出,其promiscuous值比aggregators和PAINS数据集的值还要高,这说明以上市药物中有相当一部分药物是promiscuous,换句话说,有相当一部分的药物是多靶点药物。这为老药新用(drug repurposing)和多重药理学(polypharmacology)奠定了基础。而对于黄酮类天然化合物库的检测进一步表明,化合物干扰生物活性检验的性质并不会改变他的生物活性价值,但这将对其结构优化产生巨大影响。
最后作者将Hit Dexter 2.0与统计模型Badapple进行比较,用Badapple模型提供训练集(BADAPPLE_NP、BADAPPLE_P、BADAPPLE_HP),并用Hit Dexter 2.0进行测试,结果表明Hit Dexter 2.0正确预测了绝大多数(91.99%)的nonpromiscuous骨架(与Hit Dexter 训练分子结构不同,Badapple训练的是分子骨架),对于promiscuous和highly promiscuous部分,Hit Dexter 2.0与Badapple虽存在一些差异,但由于二者的阈值不同且Badapple模型提供训练集较小(分别约为300和100个),可以认为Hit Dexter 2.0与Badapple具有较高一致性。
除上面提到的创新点以外Hit Dexter 2.0还整合了机器学习模型、基于相似性以及基于规则的各种方法,以热图的形式对化合物的性质进行预测,Hit Dexter 2.0为在药物研发中预测Frequent Hitter提供了一种实用工具。目前该方法可通过http://hitdexter2.zbh.uni-hamburg.de/网站免费访问。
参考文献:
(1) Stork C, Wagner J, Friedrich NO, de Bruyn Kops C, Šícho M, Kirchmair J. Hit Dexter: A Machine-Learning Model for the Prediction of Frequent Hitters. ChemMedChem 2018, 13, 564-571. DOI: 10.1002/cmdc.201700673
(2) Stork C, Chen Y, Šícho M, Kirchmair J. Hit Dexter 2.0: Machine-Learning Models for the Prediction of Frequent Hitters. J. Chem. Inf. Model. 2019, 59, 1030-1043. DOI: 10.1021/acs.jcim.8b00677
想了解更多CADD最新进展? 请关注专业的公众号: ComputArt计算有乐趣