【ZT】王任小课题组JCIM封面论文：评价打分函数性能的方法体系

2019-03-03 本文已影响7人爱折腾的大懒猪

文章来源：微信公众号 - ComputArt计算有乐趣 2019-03-02

JCIM封面: CASF2016

在用于药物分子设计的理论方法中，定量预测药物-靶标的亲合性被公认为是核心问题之一。近三十年来人们为此发展了各种各样的计算方法。其中，打分函数（scoring function）具有适用性广，计算速度快、精度良好等优点，特别适合与分子对接、从头设计等方法联用，完成预测配体分子的结合模式和亲合性、从化合物库中虚拟筛选活性化合物、优化先导化合物结构等一系列功能，是在药物研发实践中应用非常普遍的一类方法。由于打分函数具有重要的应用价值，发展性能更加优异的打分函数是一个竞争激烈的研究领域。据不完全统计，文献中已报道的各类打分函数已经超过百种，而且仍有新的打分函数不断出现【1】。

面对如此纷繁的可选项，打分函数的广大用户希望了解这些打分函数中哪些更加值得信赖；发展打分函数的研究人员也希望洞察这些打分函数的优缺点，明确努力的方向。但是以往各研究小组在报道他们的打分函数时，常常采用不同的测试方法和测试集，对测试结果的评判存在“自说自话”的现象。这种局面就像开展一项赛车比赛，虽然场面很热闹，但是缺乏统一的赛道和明确的竞赛规则，比赛的结果终究缺乏说服力。因此，打分函数研究领域中急需大家能普遍接受的方法体系（benchmark），来公平合理地评价各种打分函数的性能。

针对打分函数研究领域中的这一共性问题，中科院上海有机化学研究所王任小课题组逐步发展了CASF（Comparative Assessment of Scoring Functions）方法体系。他们根据打分函数的典型应用方式，提出了衡量打分函数性能的四种基本指标（打分能力、排序能力、对接能力、筛选能力），并为每种指标设计了定量的评价方法（图1）。同时，采用了将打分过程（scoring process）与构象采样过程（sampling process）分开的处理方法，克服了传统评价方法中将打分函数整合在分子对接流程中进行测试所带来的弊病，可以更准确地评价打分函数本身的性能。作为执行这些测试方法的基础，他们投入极大精力构建了蛋白-配体复合物数据库PDBbind-CN（http://www.pdbbind-cn.org/）【2】，从中精选样本，构建了结构多样性强的测试集。CASF方法体系于2009年首次公开发表（CASF-2007）【3】，其后该课题组又对评价方法、测试集等方面进行持续的改进，发表了后续工作（CASF-2013）【4-6】。与前人工作相比较，CASF方法体系明确了科学问题并提供了合理的解决方案，得到了国内外同行的广泛认可，逐渐成为评价打分函数性能的主流方法，被同行誉为 “事实上的标准”。自2010年以来，国内外已有40余例新开发的打分函数应用了CASF方法体系。

图1、采用四种基本指标来综合评价打分函数的性能，是CASF方法体系的核心思想

此次发表的CASF-2016工作，是CASF方法体系的又一次重大升级。该项工作近日发表在美国化学会出版的Journal of Chemical Information and Modeling杂志上（J. Chem. Inf. Model. , 2019(2), 59, 895–913），并被选为本期的封面论文【7】.

与前期工作相比，CASF-2016在测试集构建、评价方法以及打分函数的选取等几个方面又有提高。

（1）构建了规模更大、质量更高的测试集。从PDBbind-CN数据库2016版中收集的数千种蛋白-配体复合物中精选出57类共285种蛋白-配体复合物构成测试集。测试集包括的样本量提高约50%，有利于产生更可靠的统计结果。而且每个靶点对应的复合物样本由原来的3个增加至5个，更可靠地评价打分函数的排序能力和筛选能力。

（2）改良了一系列评价方法。例如，在排序能力评价中采用Spearman相关系数、Kendall相关系数等更加定量的指标；改进了对接能力以及筛选能力测试中伪构象的生成方法，使之更加完备；在对接能力评价中，并增加“结合能漏斗分析”评价打分函数对分子对接效率的影响；在筛选能力指标中，增添逆向筛选性能；在各项测试中采用bootstrapping方法估计置信区间，并采用Friedman方法检验结果之间差异的显著性。

（3）作为示范性应用测试了25种打分函数，除了主流商业软件中包括的一批打分函数，还有近年来出现的几种性能较好的打分函数，例如Autodock Vina，DrugScore²⁰¹⁸和D_VinaRF₂₀，涵盖了打分函数的四大基本类型。测试得出了一系列有用的结论（图2），对于在药物设计实践中如何合理应用打分函数以及如何进一步改进打分函数都具有指导意义。

图2、CASF-2016的部分结果：（A）CASF-2016采用了规模更大质量更好的测试集；（B）所有打分函数 “打分能力”的测试结果；（C）“对接能力”的测试结果；（D）对接能力中“结合能漏斗分析”的结果。

目前CASF-2016数据包已上传至网站(http://www.pdbbind-cn.org/casf.asp/) ，可供用户免费下载使用。该项工作感谢国家重点研发项目“蛋白质机器与配体分子结合过程热力学和动力学参数的计算技术”、国家自然科学基金委“国家杰出青年科学基金”等项目的资助。

参考文献
【1】Liu, J.; Wang, R.* Classification of Current Scoring Functions, J. Chem. Inf. Model. 2015, 55(3),475–482.
【2】Liu, Z.; Su, M.; Han, Li.; Liu, J.; Yang, Q.; Li, Y.; Wang, R.* Forging the Basis for Developing Protein−Ligand Interaction Scoring Functions, Acc. Chem. Res. 2017, 50, 302–309.
【3】Cheng, T.; Li, X.; Li, Y.; Liu, Z.; Wang, R.* Comparative Assessment of Scoring Functions on a Diverse Test Set, J. Chem. Inf. Model. 2009, 49, 1079-1093.
【4】Li, Y.; Liu, Z.; Han, L.; Li, J.; Liu, J.; Zhao, Z.; Li, C.; Wang, R.* Comparative Assessment of Scoring Functions on an Updated Benchmark: I. Compilation of the Test Set, J. Chem. Inf. Model. 2014,54, 1700–1716.
【5】Li, Y.; Han, L.; Liu, Z.; Wang, R.* Comparative Assessment of Scoring Functions on an Updated Benchmark: II. Evaluation Methods and General Results, J. Chem. Inf. Model. 2014, 54, 1717–1736.
【6】Li, Y.; Su, M.; Liu, Z.; Li, J.; Liu, J.; Han, L.; Wang, R.* Assessing Protein-Ligand Interaction Scoring Functions with the CASF-2013 Benchmark, *Nat. Protocol. 2018, 13, 666-680.
【7】Su, M. Y.; Yang, Q.F.; Du, Y.; Feng, G.Q.; Liu, Z.H.; Li, Y.; Wang, R. Comparative Assessment of Scoring Functions: The CASF-2016 Update. J. Chem. Inf. Model. 2019, 59 (2), 895–913. DOI: 10.1021/acs.jcim.8b00545

想了解更多CADD最新进展? 请关注专业的公众号: ComputArt计算有乐趣

【ZT】王任小课题组JCIM封面论文：评价打分函数性能的方法体系

猜你喜欢

热点阅读