抗体编号系统
抗体工程技术在药物开发中具有越来越重要的意义,并且已经开发了不同的生物治疗剂,包括利用抗体片段,双特异性抗体或抗体—药物偶联物。 然而,尽管它们在药物治疗中取得了越来越大的成功,但当注射到患者体内时,mAb通常会引发不良事件,特别是含有鼠或大鼠序列的嵌合分子,并且可能导致患者血清中出现人类抗免疫球蛋白抗体。抗体人源化仍然是治疗性抗体的标准方法,其重要先决条件需要标准化的编号方法来精确定义互补的决定区(CDR),框架( FR)以及影响抗体—抗原相互作用的结合亲和力和特异性的轻链和重链的残基。
1、Kabat编号方案
1970年,Kabat和Wu对77个Bence-Jones蛋白和免疫球蛋白轻链序列进行比对,以研究可变抗体区域连续位置的氨基酸组成的统计变异性。他们将“变异性参数”(“variability parameter”)定义为给定位置的不同氨基酸数除以该位置最多氨基酸的频率。该分析揭示了轻链可变区中的三个高变区。还证实了高度保守残基的存在,例如在免疫球蛋白结构域的内核处形成二硫键的两个半胱氨酸和在CDRL1之后立即定位的色氨酸残基。同样,在可变重链结构域中也鉴定了三个相应的高变区。 Kabat和Wu假定这些高变区将聚集在折叠结构域的一侧以形成负责特异性抗原识别的表面,并将这些高变区称为互补决定区CDR1,2和3。
1979年,Kabat等人是第一个为免疫球蛋白可变区提出标准化编号方案的人。在他们的“免疫学蛋白质序列”(Sequences of Proteins of Immunological Interest)的汇编中,轻链(λ,κ)可变区和抗体重链的氨基酸序列,以及T细胞受体的可变区(α,β, γ,δ)对齐并编号。他们观察到:
1. 分析的序列表现出可变的长度,并且间隙和插入只能包括在精确的位置。
2. 有趣的是,插入点位于CDR内,CDRL2除外,也位于FR区内的某些位置。在编号方案中,识别这些插入并用字母注释(例如,27a,27b …)。
3. 还值得注意的是,在所有λ轻链中不存在残基L10,而λ和κ链由位于不同染色体上的两个不同基因编码。
尽管Kabat编号方案通常被认为是编号抗体残基广泛采用的标准,但它具有一些重要的局限性。
1、该方案建立在来自具有最常见序列长度的抗体的有限数量序列的比对上。因此,不包括在CDR或框架区中具有非常规插入或缺失的序列。因此,最初的Kabat方案忽略了非常规长度的抗体链,具有独特的插入或缺失。
2、Kabat方案的第二个主要限制是它与抗体的3D结构不匹配。实际上,由Kabat定义的高变区与结构抗原结合环不完全匹配。 CDR-L1(L27)和CDR-H1(H35)中定义的插入点与它们在结构中的相应位置不一致(图1)。换句话说,CDR-L1和CDR-H1中晶体结构中的相应残基(拓扑排列)在Kabat编号方案中不共享相同的编号。
2、Chothia编号方案
1987年,Chothia和Lesk为抗体可变区引入了基于结构的编号方案。 它们对齐抗体可变区的晶体结构,定义了形成CDR的环结构,并校正了CDRL1和CDRH1内插入点的位置编号,使它们更适合其拓扑位置(图1)。 此外,他们将重链和轻链的CDR环分类为少量保守结构,称为“规范”(canonical )类。
基于抗体结构的比对,Chothia编号方案将氨基酸插入点从位置L27转移到L30并从位置H35转移到H31。 值得一提的是,Chothia CDR定义确保了与结构loop的更好对应。 由Chothia鉴定的CDRH3的环结构与Kabat高变区匹配良好。 相反,除了从H26延伸到H32的CDRH1之外,其他环比Kabat定义的高变序列短。 在任何情况下,根据Kabat在高变氨基酸上定义的,并且基于Chothia命名法中的环拓扑结构的CDR,对于一些CDR具有移位位置和/或包含偏离环长度(图2)。
图 2 | 根据 1kiq 域结构上显示的 Kabat(高变区)(A,C)和 Chothia(结构环)(B,D),CDR 定义的差异。 轻链 (A, B) 和重链 (C, D) 的可变域 3D 结构以卡通表示,框架为灰色和 CDR 根据 Kabat (A, C) 和 Chothia (B, D) 编号方案以红色突出显示。Chothia编号方案具有以下主要优点:来自不同抗体的拓扑排列的残基位于相同的位置编号,并且Chothia CDR定义在大多数抗体序列中对应于结构抗原结合环。
然而,与Kabat或IMGT编号方案(见下文)相比,这种编号方案的使用有限,也会产生混淆。该编号方案的一个重要限制:是由于使用最常见的CDR序列长度,如Kabat编号方案,因此Chothia方案忽略了具有非常规长度的序列。然而,类似于Kabat编号方案,可以通过定义新的插入点来优化该系统。
3、IMGT编号方案
1997年,Lefranc等人为免疫球蛋白超家族的所有蛋白质序列引入了新的标准化编号系统,包括来自抗体轻链和重链的可变结构域以及来自不同物种的T细胞受体链。 它们的编号方案基于种系V基因的氨基酸序列比对。 因此,氨基酸序列和编号在CDR3应该开始的地方停止。
IMGT编号方法基于种系V序列(germ-line V)比对从1到128连续计数残基。 因此,它避免使用插入码,除了位置111和112之间的CDR3-IMGT具有超过13个氨基酸。 相反,当特定序列中缺少残基时,不会归因于数字。 例如,在6个氨基酸长的CDR1-IMGT中,残基#27之后是残基#34(并且残基编号#28-#33不存在)。 根据Kabat,Chothia和IMGT编号方案的对齐示例如图3所示。
图3 | 根据Kabat,Chothia和IMGT编号方案,从PDB(3dwt)对齐nanobody序列。 在绿色中,半胱氨酸形成保守的二硫键,对抗保守的色氨酸。 此外,CDR3H下游的保守色氨酸118-甘氨酸119(IMGT编号,也是绿色)划分了FR-4区域的起始。 如果在给定位置没有残留物,则IMGT编号方案使用gaps(以红色表示)。 插入位置以蓝色表示。IMGT是免疫遗传学和免疫信息学的主要参考。 其公约,包括其氨基酸编号方法,已得到世界卫生组织 - 国际免疫学会联合会的认可和使用。 该编号方法的主要优点在于它基于来自包括完整免疫球蛋白超家族的完整参考基因数据库的序列的比对。
缺点:
1. 然而,由于沿着序列连续编号氨基酸,IMGT编号方案不允许直观地显示插入位置,即使对于最常见的插入位置也是如此。 出于同样的原因,这种编号方案不太灵活。 实际上,在Kabat和Chothia编号系统中,氨基酸插入点的位置很容易合并; 对于具有新氨基酸插入的潜在序列,更难以使IMGT方案适应。
2. 必须注意的是,IMGT将所有这些插入置于CDR的末端,这与抗体结构无关。 但是,此问题已在后来的V-Quest软件中得到纠正,该软件将插入放置在CDR-IMGT的中间,这与可用的结构数据更好地匹配。
4、AHo编号方案(Honegger编号方案)
该方案基于覆盖观察到的长度变化的免疫球蛋白可变区的3D结构的结构比对。 它允许定义结构上保守的Cα位置,因此推导出适当的FR区和CDR长度(图4)
图 4 | Honneger 编号方案的表示。 容纳间隙的氨基酸位置以蓝色表示。 绿色位置对应于结构上保守的残基,其 Cα 位置用于结构叠加。 这个数字是根据 Honneger 等人发表的研究改编的。Honegger编号方案(AHo):
- 定义了保守残基(C23,W43,C106,G140)和特定位置上的缺口(#27-28,#36,#63,#123)。
- CDR1具有“双跨桥”(“two span bridge” )构象,其由位置#31处的保守疏水残基产生,其深深地插入结构中并因此将环分成两个不同的部分。
- Honegger方案描述了位于这两个部分上的两个间隙区域,一个位于第一部分(#27和28),另一个位于第二部分(#36)。该惯例考虑了Loop两侧存在的插入的可变性。
- 此外,另外两个插入点分别位于#74和#75位置,以反映T细胞受体α表现出的CDR2环的较短C-末端分支。
- 额外的间隙位置位于CDR-2和-3环的中间(图4)。
- 从进一步的结构分析,他们提出将最初位于位置L10的Vκ链中的插入间隙移位到L8。
Honegger编号系统的主要优点是:
1. 它基于结构比对,因此它与抗体3D结构特征更好地匹配,其方式与Chothia编号方案类似。
2. 此外,正如IMGT计划所述,AHo非常适合于免疫球蛋白超家族中所有蛋白质的编号,通过在CDR 1和2中包含两个gaps。
缺点:
1. 但是,与IMGT方案类似,AHo可以跳过一些数字。顺序残差编号,在分析序列编号时可能会令人费解。
2. 该编号方案也不太灵活和适应性,包括具有新的或更大插入的免疫球蛋白。尽管涵盖了观察到的长度变化,但是可以通过考虑更多数量的结构来找到新的插入位置/长度。
3. 此外,结构最保守的位置仅从28种不同的结构中获得。同样,通过使该方案特异性地适应特定类型免疫球蛋白(例如抗体)的可变区,可以达到更好的定义框架区的精确度。