day02 | XGraphBoost:基于图神经网络的特征提取
今天分享的文献是今年5月发表于Journal of Chemical Information And Modeling的文章“XGraphBoost: Extracting Graph Neural Network-Based Features for a Better Prediction of Molecular Properties”,作者来自费米子科技、吉林大学和中国医学科学院药物研究所。该文提出了一个集成框架XGraphBoost,继承了基于GNN的自动分子性质提取和基于XGBoost的准确预测性能的优点,在分类和回归问题上的是研究结果表明XGraphBoost可以促进对各种分子特效的有效和准确预测。源代码地址:https://github.com/chenxiaowei-vincent/XGraphBoost.git。
图2. 构建高效准确的分子特性预测器的整体工作流程摘要
确定化学分子的特性对于筛选类似于特定药物的候选药物至关重要。候选药物需要进一步评估它们目标结合亲和力、副作用、目标丢失概率等。传统的机器学习算法可以实现令人满意的分子特性的预测精度。但是,一个药物分子结构不能直接输入到机器学习模型中,需要从药物分子结构出发,设计和计算一组特征。这种手工制作的特征的过程又被称为特征工程,它在很大程度上依赖于研究人员的经验并且耗时耗力。近几年兴起的深度学习方法,使用神经网络模块自动从分子结构或保留大量原始信息的描述符中自动学习分子的低维稠密表示向量,无需特征工程,从而减少药物开发周期。最近又引入了图神经网络(graph neural networks,GNN)的概念来描述化学分子,可以通过各种类型的GNN,例如图卷积神经网络(graph convolution network,GCN)、门控神经网络(gated graph neural network,GGNN)和定向消息传递神经网络(directed message passing neural network,DMPNN)等,从分子中自动提取特征。与传统机器学习方法相比,稳定的GNN模型的训练需要大量的训练样本和强大的算力,本文使用GNN提取药物分子特征,使用分类器XGBoost构建分子特性的准确预测模型,进而构建新的用于预测分子特性的框架XGraphBoost。该框架将具有基于GNN的自动提取分子特征和基于XGBoost的准确预测分子特性的优点,可以促进对各种分子特性的有效和准确预测。
1.研究课题的背景及重要性
确定分子的各种特性是药物发现的关键步骤,通常需要进行一系列复杂的生化反应来获得给定分子的性质。已经存在的化学分子和迅速出现的新分子的数量使得通过实验来确定所有分子的特定性质成为不可能的任务。通过借助计算机辅助药物设计技术来预测分子特性,已经成为生物信息学研究领域的主要趋势之一。
常规策略提取分子描述符(或特征)通常基于分子的三维结构计算,分子的性质可以通过定量构效关系(QSAR)模型进行预测。机器学习算法已经被证实在化学分子的特性预测方面具有良好的预测性能。各种流行的监督学习分类器被用于预测化学分子特性,包括支持向量机(SVM)、随机森林(RF)和人工神经网络(ANN)等。近年来,深度学习算法在各种生物信息学领域取得了非常大的成功,深度学习算法可以代替传统的机器学习算法并执行监督学习任务。深度神经网络(DNN)用于使用预先计算的分子描述符(或特征)来构建分子特性预测模型,并且其性能与机器学习算法相比有所提高。深度学习算法也可以作为生物标志物开发和药物发现问题的特征提取器,三维卷积神经网络和图卷积神经网络已成功用于提取分子描述符(或特征),但基于深度学习的分子描述符提取和属性预测对大量训练样本和密集计算能力的挑战性要求仍有待解决。
2.国内外研究现状
药物开发是一个成本高昂且耗时的过程,所以必须降低计算候选药物筛选的计算要求和错误率。无论是机器学习还是深度学习都已经成功用于药物开发,促进了候选药物虚拟筛选的快速创新。各种计算方法也已经成功的部署,包括分子指纹、打分功能、分子对接方式、分子生成和属性预测等。分子特性预测是药物开发过程中最重要的问题之一,不少传统的机器学习算法已被用于预测分子特性,研究人员计算了给定分子的摩根指纹,然后使用支持向量机(SVM)或者随机森林(RF)作为分类器来训练模型。
Joe和kim等人受自然语言处理领域的表征学习策略的启发,提出了一种高效的分子特征学习算法FP2VEC,最终的FP2VEC特征用于训练CNN模型,并在定量结构活性关系(QSAR)任务上取得较好结果,在本研究中我们将复制他们的开源代码并将这项研究命名为FP2VEC+CNN。Hou等人使用单层神经网络 (SLNN)、多层深度神经网络 (DNN) 和卷积神经网络 (CNN)多个神经网络研究分子特性预测问题,作者使用库仑矩阵(CM)格式来表示分子,并使用此输入数据格式训练预测模型。具有CM数据输入的三层DNN取得了最好的结果,所以模型被命名为DNN+CM,本研究中我们也将在相同数据集上复现他们的代码。
图神经网络(GNN)是学习化合物结构中原子间连接的重大突破之一,各种GNN的变体也展示了它们通过图节点之间的消息传递捕获节点间关系的有效性,包括图卷积神经网络(GCN)、门控神经网络(GGNN)和定向消息传递神经网络(DMPNN)。本文提出了新的框架XGraphBoost来整合基于GCN的特征提取和传统分类器XGBoost来解决分子特性预测问题。在实验中使用MoleculeNet对分子性质预测的分类和回归问题,结果证明了优化分子特征提取器和预测器的必要性。
3.材料和方法
3.1数据集
数据集选用MoleculeNet
图3.数据集情况每个数据集被分层随机划分为训练、验证和测试集,比例为0.8、0.1、0.1。同时使用不同随机种子重复实验3次以减少样本分布对模型性能的影响。
3.2 图神经网络GNN
分子图由节点和边组成。节点由原子类型、原子元素、氢原子的数量、价数、芳香特性和其他特性来描述。每个节点的这些描述符进行one-hot 编码。使用邻接矩阵表示原子对之间的连接性。该研究使用RDKit 处理 化合物SMILES 以获得分子图和Morgan指纹,并将其用于 GNN 和 XGBoost。
该研究使用三种图神经网络。图卷积神经网络 (GCN) 是使用卷积运算的消息传递神经网络的最简单版本;门控图神经网络 (GGNN) 在传播步骤中利用门控循环单元 (GRU);DMPNN为通过有向键传递信息的MPNN。
3.3 用于分类和回归的 XGBoost
极限梯度提升算法(XGBoost)是梯度提升策略的有效实现。梯度提升决策树(GBDT)是一种集成监督学习算法,它集成了多个弱学习器(如决策树)的结果。XGBoost通过增强正则化改进了传统的梯度提升策略。
3.4 XGraphBoost
该研究分三个步骤进行,如下图所示。首先,将原始分子数据格式化为图形结构;其次, XGraphBoost 使用三种图神经网络GCN、GGNN 和 DMPNN 学习分子特征的图表示;最后,将图表示作为样本特征加载到监督学习器 XGBoost。
图4. 构建高效准确的分子特性预测器的整体工作流程分子的描述符(或特征)由 GNN 模型提取,然后加载到监督学习器 XGBoost 以进行分类或回归。
该方法协调了分子图表示和数据驱动的监督学习器 XGBoost 的优点。以上三种图神经网络已广泛用于分子性质预测研究,并证明了它们在表示原子和原子间键的化学和物理特征方面的能力,而监督学习器 XGBoost 是一种用于各种生化模式预测问题的非常有效的机器学习算法。
4.结果
4.1 实施和运行环境
图5.实施和运行环境在分类代表数据集BACE和回归代表数据集ESOL上评估三种图神经网络,结果表明三种图神经网络在药物性质的分类和回归问题上具有令人满意的预测能力,并在200个epochs内收敛、Loss曲线如图二所示。三个GNN的比较中,DMPNN的损失值最低且收敛速度最快。
图6. 三种GNN在分类和回归问题上的损失曲线用XGBoost作为监督学习模型,在10个数据集上评估三种GNN的性能(图7)。DMPNN在其中的9个数据集优于其他两种GNN,表明 DMPNN 提取的特征与分子特性具有更显着的关联;GGNN的平均AUC最高(AUC=0.880);GCN的表现最差,这表明仅使用GCN 提取的特征可能无法为分子特性预测问题提供足够的性能。
图7. 在10个数据集上评估三种GNN特征提取方法,同时使用XGBoost作为监督学习模型4.2 与Morgan指纹特征的比较
图8. 使用DMPNN特征和Morgan指纹的XGBoost模型的性能比较因为在上面的研究中,使用DMPNN提取特征效果最好,所以在接下来的比较过程中,使用DMPNN作为默认的特征提取方法。这里先比较DMPNN+XGBoost和Morgan fingerprint+XGBoost两种模型的效果。该研究在所有数据集上进一步比较了 DMPNN 特征和监督学习器 XGBoost 的组合与Morgan 指纹特征和 XGBoost 的组合,如图8所示。一个好的监督学习模型需要在分类问题中有较大的AUC值,在回归问题中有较小的RMSE值。结果显示 DMPNN 提取的特征在所有 10 个数据集上都优于 Morgan 指纹。在 Clintox 数据集上实现了分类 AUC 值的最大提升(0.215),从0.685到0.899。同时,DMPNN 提取的特征实现了比 Morgan 指纹更小的 RMSE 值,对于三个数据集 Lipophilicity、ESOL 和 FreeSolv,它们之间的RMSE分别为 0.344、0.421 和 0.335。
4.3 评估使用监督学习器 XGBoost 的必要性
图9. 监督学习器XGBoost与GNN原始输出层之间的性能比较图9表明,如果三种 GNN 的输出层被监督学习器 XGBoost 取代,则所有回归数据集的RMSE 值都得到改善。GCN模型在FreeSolv数据集上的改善最大,RMSE值从RMSE=3.499(GCN模型)降低到1.975(GCN+XGBoost模型),这两个模型的标准差分别为0.111和分别为 0.274。同时,几乎所有的分类模型都通过用监督学习器 XGBoost 替换这些 GNN 的输出层来改善。在10个数据集中,DMPNN 提取特征和监督学习器 XGBoost 的组合取得了 9 个的最佳性能。DMPNN-XGBoost 在 ToxCast 数据集上的表现 (AUC = 0.779) 比 DMPNN 模型 (AUC = 0.797) 稍差。
4.4 调整参数获得更好的表现性能
调整模型参数获得更好的表现性能Diff(DMPNN)和Diff(DMPNN + XGBoost)表示调整过参数的模型。
模型的最优参数值4.5 与先前研究的比较
图10. DMPNN+XGBoost与 FP2VEC+CNN 和 DNN+CM 两项研究的性能比较使用FP2VEC+CNN和DNN+CM与DMPNN+XGBoost进行比较,结果如图所示,DMPNN+XGBoost,在分子性质预测问题的分类和回归模型上均优于FP2VEC+CNN和DNN+CM这两项研究。
4.6 不同监督学习算法的评估
图11.与不同监督学习器的性能比较假设原始 DMPNN 模型的输出层可以通过传统的监督学习器进一步改进。分别使用RF、SVM和KNN作为监督学习算法与GNN进行组合,结果如图6所示。结果表明传统算法 RF、SVM 和 KNN 没有提高 DMPNN 模型的模型性能。XGBoost 在 10 个数据集中的 7 个数据集上实现了性能提升,但在进一步调整框架 DMPNN+XGBoost 的参数后,所提出的算法 XGraphBoost 在所有 10 个数据集上与 DMPNN 模型相比均实现了性能提升。
4.7 图表示算法和监督学习器之间的组合
图12.不同图表示算法和不同监督学习器之间的组合本研究组合了不同图表示算法和不同监督学习器,我们可以观察到,除了分类数据集 ToxCast 上的GGNN+XGBoost,表现最好的组合总是 DMPNN+XGBoost。所以总的来说,DMPNN 提取的特征和监督学习器 XGBoost 之间的组合是一个很好的分子特性预测框架(在该研究中表示为 XGraphBoost)。
5.问题
模型受限于SMILES编码,不能包含分子的三维结构信息。