SKEMPI2.0 数据集

这是立陶宛维尔纽斯大学 Justina 组于 2019 年发表于《Bioinformatics》上的文章,展示了新版的SKEMPI 2.0(Structural database of Kinetics and Energetics of Mutant Protein Interactions) 数据集。它对结合自由能数据库进行了重大更新,在用于在结构上研究蛋白-蛋白之间突变的能量变化。这个版本包括了人工整理的 7085 个突变,相比上一个版本增加了133%,其中增加了 1844 个突变的动力学数据,443个突变的焓和熵的变化数据。它是一个非常适合用于模型训练和 benchmark 的数据集。网址为:https://life.bsc.es/pid/skempi2/
1 介绍
SKEMPI 是一个手动收集的突变数据库,它主要在结构上呈现的是蛋白-蛋白之间的相互作用以及这些突变对亲和力和其他参数的影响。第一个版本已经被作为基础应用于很多研究,包括能量函数和蛋白相互作用网络 CCharPPI 的构建。SKEMPI 也被应用于人类疾病的研究,评估动力学在结合中的作用,评价实验测定亲和力的方法,也可作为预测突变时解离速率变化模型的数据集。版本1和版本2的数据对比如表1所示:

2 材料与方法
2.1 数据来源
超过五分之二的数据来源于 SKEMPI1.1 版本,这些数据主要从文献中收集。SKEMPI 1.1 中的一些条目来源于 ASEdb 和 PINT 数据库。SKEMPI 2.0 中大多数新纳入的数据也来源于搜索的文献,包括一些最新发布结构的亲和力数据。SKEMPI 2.0 也纳入了ABbind、PROXiMATE、dbMPIKT 等数据库的数据,它们的占比分别为4%、3%和6%。
2.2 数据收集
文献中发现的每个条目都会进行手动审核。为了确保质量,设置了严格的过滤标准。例如,保证文献报导的亲和力和结构都来源于同一个蛋白和同一个物种。在不使用全长蛋白的情况下,保证结晶结构的片段与亲和力数据相匹配。一旦审核通过,就会收集如下信息,包括PDB文件、相互作用的亚基链、突变组合、野生型和突变型的亲和力、reference、蛋白名称、实验温度、实验方法、注释、结合速率(kon,M-1s-1)、解离速率(koff,s-1) 、焓(H) 和熵(
S)。
为了保证一致性,在搜集数据的过程中还进行了亲和力和热动力学参数单位的统一转化,PDB文件中氨基酸残基的排序也进行了归一化处理。值得注意的是,当低于实验仪器的亲和力检测阈值时,报告non-binding 或者是弱结合按照原始文献进行了标注。
2.3 后处理及注释
残基位置: 每个突变的残基都根据 Levy 策略列出了突变所在的位置。位于界面的残基被分类为: support (未结合状态大多数情况深埋在内部 & 结合状态完全深埋在内部);core(未结合状态大多数情况暴露于溶剂,但是结合状态完全深埋);rim(结合状态部分深埋);结合位点的残基被定义为 interior 或者 surface。

PDB文件处理: 在PDB数据库中,一个晶胞结构通常包括多个拷贝的相互作用蛋白链和一些不相关的链。文章对这些PDB文件进行了处理,提供 “cleaned” PDB文件,只包括目标相互作用链,并且对突变残基进行了重新编号。
3 结果与讨论
3.1 SKEMPI1版本与SKEMPI2版本的差异和多样性
1、SKEMPI1 和 SKEMPI2 版本数据库有参数显著不同的地方,如Fig1A所示
2、G 数值虽然跨比较大,但是绝大多数都在 -3 到 7 之间,如Fig1B所示
3、大约 3/4 的突变都是单点突变,其中超过一半都突变成了丙氨酸。突变的带电氨基酸和芳香族氨基酸也显著过量,而且多数单点突变都集中在结合位点,特别是界面的核心位置。如FigC所示
4、亲和力测定的实验方法 SPR 和 FL 占据了多数
5、超过一半的数据都为以下相互作用类型:蛋白酶-抑制剂,抗原-抗体,pMHC/TCR。如Fig2所示


3.2 SKEMPI2 包含的研究课题
SKEMPI 数据包括的数据多样,包含很多生物过程如系统扫描,丙氨酸扫描和同源扫描。课题设计包括计算模拟,抗体工程,药物设计,病理突变评估等。
3.3 数据集参数跨度和误差
参数跨度: 结合自由能跨度在 -12.4 至 12.4 kcal.mol-1 之间;log10kon 在 -3.6 至 2.4之间;
log10koff 在 -6 至 6.8之间;
H 在 -18.3 至 26.5 kcal.mol-1 之间;
S 在 -61 至 80 cal.mol-1.K-1 之间。大约有 60 个突变非常不稳定,亲和力能量的变化超过 8 kcal.mol-1 ,它们主要集中在酶-抑制剂复合体。有些野生型和突变型的亲和力数据都集中在检测阈值附近,这些条目的错误率会比较大。
误差: 按规定报告 的上半部标准差,大约在 0.25kcal.mol-1 。 这部分估计是使用相同设备、环境和方法测定的,不包扩系统误差。
3.4 Mutant cycles
在 SKEMPI 数据集中,一些条目可以结合起来构建 mutant cycles,可以用来确认氨基酸残基之间的相互作用。例如,当野生型、A突变、B突变和AB双突变的亲和力数据都已知时,可以构建 double mutant cycles 来研究 A 残基突变和 B 残基突变之间的作用,是相互独立、协同还是拮抗。

4 参考文献
[1] Justina J ,Jiménez-García Brian,Dapkūnas Justas,et al.SKEMPI 2.0: An updated benchmark of changes in protein-protein binding energy, kinetics and thermodynamics upon mutation[J].Bioinformatics, 2018(3):3.DOI:10.1093/bioinformatics/bty635.
[2] Horovitz A .Double-mutant cycles: a powerful tool for analyzing protein structure and function[J].Folding and Design, 1996, 1( 6):R121-R126.DOI:10.1016/S1359-0278(96)00056-9.