顶刊精读 | Cll 肿瘤蛋白基因组与细胞系数据整合揭示了泛癌症

2024-09-23  本文已影响0人  BioJournal_Link

[图片上传失败...(image-808df1-1727113920025)]

Basic Information

Highlights

Para_01

Summary

Para_01
  1. 被美国食品药品监督管理局(FDA)批准的抗癌药物的目标蛋白少于200个。
  2. 我们将来自Clinical Proteomic Tumor Analysis Consortium (CPTAC)的proteogenomics数据与额外的公共数据集整合,这些数据来自1043名患者,涵盖10种癌症类型,用以识别潜在的药物治疗靶点。
  3. 对2863个可用药蛋白的泛癌症分析显示,蛋白的丰度范围广泛,并识别了影响mRNA-蛋白相关性的生物学因素。
  4. 通过整合肿瘤的蛋白组数据和细胞系的基因筛查数据,我们识别了由蛋白过表达或超激活驱动的可用药依赖性,这能够准确预测有效的药物靶点。
  5. 蛋白基因组学识别合成致死性为针对肿瘤抑制基因丢失的治疗提供了策略。
  6. 结合蛋白基因组学分析和MHC结合预测,优先考虑突变KRAS肽作为有前景的公共新抗原。
  7. 通过计算识别共享的肿瘤相关抗原,并进行实验验证,提名肽作为免疫治疗靶点。
  8. 这些分析,汇总于https://targets.linkedomics.org,构建了伴随诊断、药物再利用和治疗发展的蛋白和肽靶点的全面景观。

Graphical abstract

[图片上传失败...(image-f580c-1727113920024)]

Keywords

Introduction

Para_01
  1. 下一代测序技术已经革新了癌症研究,通过对癌症基因组和转录组的深入表征,极大地提高了我们对癌症生物学的理解。
  2. 尽管取得了这些进步,但大多数癌症患者仍然接受放疗和化疗,这些治疗方法与显著的复发风险和毒性相关。
  3. 靶向治疗,包括小分子药物、单克隆抗体、抗体-药物偶联物(ADCs)、蛋白降解靶向嵌合分子(PROTACs)、抗体导向酶前药治疗(ADEPTs)、癌症治疗疫苗、检查点抑制剂和T细胞治疗,有望实现更有效、更精确的癌症治疗。
  4. 由于蛋白质是这些治疗的主要靶点,并且是癌症驱动基因和表观遗传异常的功能效应器,因此蛋白质组学,即无偏倚质谱(MS)为基础的蛋白质组学与基因组学、表观基因组学和转录组学的整合,为探索现有和未来的癌症治疗靶点提供了一个强大的框架。
Para_02
  1. 临床蛋白质组肿瘤分析联盟(CPTAC)对超过1000个前瞻性收集的、未经治疗的原始肿瘤进行了蛋白质基因组表征,这些肿瘤涵盖10种癌症类型,其中许多伴有匹配的正常邻近组织。
  2. CPTAC泛癌症资源工作组对这10种癌症类型的所有组学数据进行了协调,以用于泛癌症蛋白质基因组学研究。
  3. 在本研究中,我们将这一数据集与其他公共数据集相结合,以揭示癌症治疗的蛋白质靶点。
  4. 我们的分析为现有的癌症药物靶点提供了见解,并系统地识别了药物再利用或开发的新候选靶点。
  5. 这些包括过度表达和过度激活的蛋白质依赖性,与肿瘤抑制基因(TSGs)丢失相关的蛋白质依赖性,以及可能的neoantigens和肿瘤相关抗原。

Results

Proteomic quantification of druggable genes

药物靶点基因的蛋白质组定量

Para_01
  1. 我们分析了来自1043个肿瘤样本和524个正常组织样本的10种癌症类型的和谐CPTAC蛋白质基因组学数据,包括乳腺癌浸润性导管癌(BRCA)、透明细胞肾细胞癌(CCRCC)、结肠腺癌(COAD)、胶质母细胞瘤(GBM)、头颈鳞状细胞癌(HNSCC)、肺腺癌(LUAD)、肺鳞状细胞癌(LSCC)、卵巢浆液性囊腺癌(OV)、胰腺导管腺癌(PDAC)和子宫体子宫内膜癌(UCEC)(表S1)。
  2. 通过分析突变、拷贝数变异(CNV)、甲基化、转录本、蛋白质和磷酸化位点丰度数据(图1A),我们旨在为生物标志物指导的患者选择、药物再利用和新疗法的开发提供可行的见解。

[图片上传失败...(image-505f61-1727113920024)]

  • 图 1. 队列概览和治疗靶点的蛋白质组景观(A)10个癌症队列的肿瘤和正常组织样本数量以及每种组学类型的总识别特征数量。(B)五个靶标层级中每个层级存在的基因数量。重叠的基因被分配到最高的层级。(C)每个层级中属于每个功能家族的基因百分比。(D)在至少一个队列中每种组学类型识别的基因数量。(E)每个队列中靶点的中值log2 MS1强度(蛋白质丰度)的热图。(F)所有蛋白质按每个队列中的中值的中值丰度排序,颜色尺度与(E)相同。具有最高和最低中值丰度的药物靶点被标记,以及批准用于癌症的药物数量最多的靶点。(G)散点图比较了在至少3个队列中可用药蛋白质的所有样本的中值log2 RNA表达和中值log2蛋白质丰度。包括了所有基因或中值log2 RSEM高于或低于6的基因的Spearman相关系数。(H)mRNA和蛋白质丰度之间无相关性基因的Spearman相关系数热图。(I)LSCC队列中CDK9蛋白质丰度与CDK9 mRNA丰度之间或CDK9蛋白质丰度与CCNT1蛋白质丰度之间的Spearman相关系数。(J)基于CDK9蛋白质的全局蛋白质共表达(顶部)或基于CDK9 mRNA的全局mRNA共表达(底部)的mRNA处理基因集的GSEA富集。另见图S1和表S1和S2。
Para_01
  1. 我们从DrugBank、Guide to Pharmacology (GtoPdb)、药物基因交互数据库和理论人类表面蛋白组中整理了药物靶点信息,并将这些靶点分为五个层级(如图1B所示)。
  2. 第一层级包含了被任何监管机构批准用于治疗任何类型癌症的药物的初级抑制靶点。
  3. 在156个第一层级的靶点中,超过30%是激酶(如图1C所示)。
  4. 第二层级由471个被批准用于治疗其他适应症的药物的初级抑制靶点组成,相较于第一层级,其包含了更高比例的离子通道和G蛋白偶联受体(GPCRs)。
  5. 第三层级包括了448个被考虑用于研究或实验性药物的抑制靶点,其中包含了相对较大比例的表观遗传药物。
  6. 第四层级由剩余的1,081个在小分子药物中频繁被靶的蛋白质家族的基因组成。
  7. 第五层级包括了707个细胞表面膜蛋白。
  8. 完整的靶点及其分层的列表可以在表S2中找到。
Para_02
  1. 五个目标层次总共包含了2,863个基因,所有这些基因都通过RNA测序(RNA-seq)数据进行量化,而蛋白质组数据覆盖了71%(见图1D)。
  2. 在每个队列中,量化的可成药蛋白显示出中等蛋白质丰度的一个广泛范围(见图1E)。
  3. 在所有队列中,SERPINA1在可成药蛋白中具有最高的总体中值丰度,而S1PR5具有最低的总体中值丰度(见图1F)。
  4. 此外,被八种或更多批准的肿瘤药物靶向的蛋白,包括TUBB、PDGFRB、EGFR、TOP2A、FLT1、ERBB2、KIT、TYMS、PDGFRA、FLT4和KDR,也显示出总体中值丰度的广泛谱系。
Para_03
  1. 蛋白质含量中位数较高的基因往往具有较高mRNA含量中位数;然而,这种关联在mRNA含量较低的基因中减弱(log2 RSEM [使用期望最大化法从RNA-Seq软件得到的归一化计数] ≤ 6)(图S1A),在可成药基因子集中也可见到这一趋势(图1G)。
  2. 在mRNA含量低的可成药基因中,除三个以外,其余基因的蛋白质鉴定均使用PepQuery2.12进行了验证。
  3. 我们观察到,在mRNA含量低的可成药基因中,注释为人类蛋白质图谱13的分泌蛋白显著富集(费舍尔精确检验,p = 2.2 × 10^-13,图1G),这可能是mRNA和蛋白质含量之间观察到的差异的一个原因。

[图片上传失败...(image-18bc0b-1727113920024)]

  • 图S1. mRNA和蛋白相关性,与图1相关(A)所有基因的中位数RNA丰度和中位数蛋白丰度。药物靶点根据层级着色。显示了局部加权回归散点平滑曲线,虚线表示曲线上的最低点。所有基因的mRNA和蛋白丰度之间的Spearman相关系数显示出来,并分别针对中位数RNA丰度小于或大于6进行计算。(B)不同癌症队列中所有基因的mRNA和蛋白表达的基因-wise Spearman相关性分布。(C)每个队列中所有基因、每个层级中的基因以及不属于任何层级的基因("其他")的中位数基因-wise Spearman相关系数。使用配对t检验比较层级与其他基因之间的中位数。(D)CDK9和CCNT1蛋白丰度与mRNA丰度之间的Spearman相关性。(E)HDAC3和GPS2蛋白丰度与mRNA丰度之间的Spearman相关性。∗p < 0.05。
Para_03
  1. 在10个队列中,基因水平的mRNA与蛋白相关性中位数从0.34到0.61不等,总体中位数为0.48,并且每个队列包含1200至3500个基因,这些基因与蛋白的mRNA呈显著正相关(图S1B)。
  2. 值得注意的是,在所有五个层次上可成药基因的mRNA-蛋白相关性中位数显著高于其他基因(图S1C)。
  3. 这可能部分解释了为什么在大型蛋白复合物中,如核糖体、氧化磷酸化复合物和RNA聚合酶中的可成药基因会富集,这些复合物往往具有较差的mRNA-蛋白相关性。
  4. 尽管有这个有趣的观察,但在大多数队列中,超过一半的可成药基因的mRNA-蛋白相关性低于0.6。
  5. 实际上,有19个可成药基因在所有10个队列中均未显示出显著的mRNA-蛋白正相关性(校正p值大于0.01或相关性系数小于0)(图1H)。
  6. 这些基因主要与分泌蛋白相关,但也包括HDAC3和CDK9这两个参与转录调控且未知是否分泌的基因。
  7. CDK9蛋白丰度与所有癌症类型对应的mRNA丰度相关性较差,但它与结合伴侣周期蛋白T1(CCNT1)蛋白丰度的相关性最强,所有蛋白中没有相应的mRNA正相关性(图1I和S1D)。
  8. 此外,与CDK9蛋白共表达的蛋白的基因集富集分析(GSEA)显示,参与mRNA处理的蛋白显著富集,这是CDK9已知的生物学功能。
  9. 然而,与CDK9 mRNA共表达的mRNA则显示出相反的模式(图1J)。
  10. 这些结果表明,与mRNA水平相比,CDK9蛋白水平更能代表其功能。
  11. 同样,HDAC3蛋白丰度与GPS2蛋白丰度高度相关(图S1E),而不是HDAC3 mRNA丰度,GPS2是一种转录辅阻遏蛋白,与HDAC3形成复合物。
  12. 这些发现强调了直接测量可成药基因蛋白丰度的重要性。

Targetable dependencies driven by protein overexpression

由蛋白过表达驱动的可靶向依赖性

Para_01
  1. 我们比较了肿瘤和正常组织样本,以确定在肿瘤中过度表达的蛋白质。
  2. 为了进一步筛选对癌症细胞生存和增殖至关重要的蛋白质,因此是良好的治疗靶点,我们使用了来自相应谱系的癌症细胞系的CRISPR-Cas9筛选实验中的基因依赖分数,这些数据是从癌症依赖图(DepMap)下载的。
  3. 在具有正常样本的8个队列中(表S1),有999-2914个基因在肿瘤组织中显著过度表达(校正p≤0.01,威尔科克森秩和检验),并且在细胞系中基因敲除(KO)后细胞生长显著减少(校正p≤0.01,单尾t检验;图2A;表S3A)。

[图片上传失败...(image-cec3f1-1727113920024)]

  • 图2.基于基因筛查和基因组异常的靶向肿瘤过度表达蛋白的优先级排序(A)根据肿瘤组织中蛋白质上调和细胞系中CRISPR效应评分低于零,定义每种癌症类型的潜在可用药靶点。在肿瘤与正常比较中,按显著性排列的前10个可用药靶点已标记。右下角的数字是每个层次中候选和可用药靶点的总数。(B)至少五种癌症类型共享的潜在可用药、非泛必需靶点。(C)通过Student's t检验,评估每个队列中突变样本与WT样本的基因同源mRNA和蛋白质丰度的差异。(D)基因的同源mRNA和蛋白质丰度与肿瘤中低甲基化基因的甲基化水平的相关性(Spearman相关)。三角形表示与正常样本相比,肿瘤样本中蛋白质的过表达。(E)对于焦点扩增区域的基因,CNV、RNA和蛋白质丰度之间的正Spearman相关。三角形表示与正常样本相比,肿瘤样本中蛋白质的过表达。另见图S2和表S3。
Para_01
  1. 这个池中共有457种蛋白质可以被归类到5个目标层级中。尽管许多蛋白质特定于某种癌症类型,但有51种蛋白质至少被5种癌症类型共有,且没有被DepMap指定为泛必需蛋白质(见图2B)。这些可针对的泛癌症依赖包括5个层级1目标,7个层级2目标,提示了药物再利用的机会,19个层级3目标,可能为实验性药物提供指示,以及15个层级4目标和5个层级5目标,它们是新疗法开发的良好候选。值得注意的是,层级1目标GART和层级3目标PAK1在所有八种癌症类型中均表现出过表达和依赖。
Para_02
  1. 我们进一步整合了mRNA和蛋白表达数据以及突变、甲基化和拷贝数数据,以确定过表达的蛋白与各自基因中的基因异常有关(STAR方法)。
  2. 这些分析包括既可以是靶点蛋白,也可以是由于其潜在的致癌驱动作用而目前无法成为靶点的蛋白。
  3. 在突变分析的结果中(图2C;表S3B),GBM和LUAD中的EGFR突变经常伴随着拷贝数扩增,与EGFR mRNA和蛋白水平的增加有关。
  4. GATA3突变,已知会破坏E3泛素连接酶的识别基序,19导致BRCA中的蛋白和mRNA水平升高。
  5. CTNNB1突变与UCEC中蛋白水平增加但mRNA水平不增加有关,这与现有的CTNNB1热点突变使突变蛋白逃避β-Trcp识别和后续降解的知识相符。20
  6. TP53突变(图2C),尤其是DNA结合域中的错义突变(图S2A和S2B),与8个队列中蛋白丰度的增加但mRNA没有相应增加有关。
  7. 众所周知,DNA结合域中的TP53错义突变不仅破坏蛋白的DNA结合,还延长其半衰期。21
  8. 在甲基化方面(图2D;表S3C),LSCC中的激酶PRKCI和PAK2在甲基化与mRNA和蛋白表达水平之间显示出显著的负相关性,与正常组织相比,肿瘤中的甲基化水平显著降低而蛋白丰度更高。
  9. 同样,BAR适配器家族蛋白BIN2在其甲基化与5个队列的mRNA和蛋白水平之间也显示出显著的负相关性。
  10. 此外,与正常组织相比,BIN2在CCRCC、PDAC和HNSCC的肿瘤中过表达,并在这三种癌症类型的细胞系中显示依赖性(表S3A)。
  11. 在拷贝数改变的情况下,5个层次上的44个基因在拷贝数扩增时mRNA和蛋白水平显著升高(表S3D)。
  12. 其中,21个基因在至少1个队列的肿瘤中相比于正常组织增加,包括ERBB2、EGFR和CDK6等知名癌症驱动基因,以及CLK2、MAP4K5、PPAT、PYGL和SLC12A9等研究较少的基因(图2E)。
  13. 总的来说,这些分析将过表达的蛋白优先考虑为药物再利用或开发的候选物。

[图片上传失败...(image-170e72-1727113920024)]

  • 图S2:TP53突变对蛋白质含量的影响,与图2相关。(A)突变样本中的TP53蛋白质含量与同一癌症队列的野生型蛋白质含量中位数进行比较。x轴表示蛋白质序列中突变的首个位置。AD,激活域;TD,四聚化域。(B)突变样本中的TP53蛋白质含量与同一癌症队列的每种突变类型的野生型蛋白质含量中位数进行比较。

Targetable dependencies driven by protein hyperactivation

由蛋白质超活化驱动 的可靶向依赖性

Para_01
  1. 除了过表达外,蛋白质活性还可能通过翻译后修饰改变来驱动肿瘤生成。
  2. 为了确定由蛋白质超活化驱动的可靶向依赖性,我们对肿瘤和正常样本之间的磷酸化位点进行了差异丰度分析,筛选出在肿瘤中过表达的、在可靶向蛋白质上的激活磷酸化位点,并将这些结果与同谱系癌症细胞系中它们宿主基因的DepMap依赖性评分整合在一起。
Para_02
  1. 在8个具有正常样本的队列中,18-100个激活磷酸位点在肿瘤组织中的表达显著增加(校正p≤0.01,威尔科克森秩和检验),当在细胞系中对相应宿主蛋白进行基因敲除时,细胞生长呈现一致性的下降(校正p≤0.01,单尾t检验;图3A;表S4A)。这包括了总共229个激活磷酸位点-癌症组合,其中有90个涉及到的磷酸位点位于5个目标层级中整理的蛋白质上。

[图片上传失败...(image-4e8c5f-1727113920023)]

  • 图3.基于基因筛查数据的目标可靶向肿瘤高度激活蛋白的优先级排序(A)每种癌症类型定义的可靶向蛋白高度激活事件,通过肿瘤组织中激活磷酸位点丰度的增加和相应蛋白的CRISPR基因效应评分低于零来确定。肿瘤与正常组织比较中意义最高的前10个高度激活事件被标记。右下角的数字分别表示每个层次的总候选数目和可药物干预的高度激活事件数目。(B)至少两种癌症类型共享的非泛-必需宿主靶点的可靶向蛋白高度激活事件。(C)带有增加激活位点磷酸化注释的激酶活性推断。(D)在肿瘤中推断活性显著增加且在基因筛查中具有显著依赖评分的激酶。另见图S3和表S4。
Para_02
  1. 在这些蛋白质超活化事件中,有31个发生在两种或以上的癌症类型中,它们宿主蛋白没有被DepMap归类为泛必需蛋白(图3B)。
  2. 这20个事件涉及激酶上的激活位点。
  3. 有8个磷酸化位点出现在五种或以上的癌症类型中,包括HDAC1 S421(第1层)、ITGA4 S1021(第2层)、PTPN1 S50和PAK1 S174(第3层),以及MAPK6 S189、CAD S1859、CDK10 T196和RPS6KA4 T687(第4层)。
  4. 一些发现,如PTPN1、PAK1和CAD,强化了之前的蛋白质过表达结果(图2B),而其他的是通过磷酸化位点分析独特识别的。
Para_03
  1. 基于磷位点差异分析结果,我们进一步使用激酶-底物富集分析(KSEA)算法推断肿瘤和正常样本之间改变的激酶活性(表S4B)。
  2. 在8个队列中,共有19个激酶活性增加,其中11个有支持性证据显示在一个或多个队列中激酶激活位点的磷酸化上调(图3C)。
Para_04
  1. 在涉及的31个激酶-癌症对中,有15个独特的激酶在肿瘤中显示出增加的激酶活性,并且在相应的细胞系中具有显著的依赖性,其中最显著过度激活的激酶是CDK1、CDK2和CDC7(图3D)。
  2. 这些激酶的过度激活得到了它们调节蛋白的过表达的支持,分别是相对于正常组织的肿瘤中的cyclin B1(CCNB1)、cyclin E1(CCNE1)和DBF4(图S3A)。
  3. 此外,在肿瘤样本内,这些激酶的推断活性与相应调节蛋白的mRNA和蛋白质丰度相关(图S3B)。
  4. 所有激酶都得到了它们底物在肿瘤组织中过丰富磷酸化的支持,并且一些蛋白质底物也是可药物治疗的(图S3C),这可能被探索用于联合治疗。
  5. 总的来说,这些分析提名为过度活跃的蛋白质作为潜在的有效治疗靶点,以进行进一步的研究。

[图片上传失败...(image-695432-1727113920022)]

  • 图S3.肿瘤中激酶活性增加,与图3相关。(A)使用Wilcoxon秩和检验比较肿瘤与正常样本中CCNB1、CCNE1和DBF4 RNA的表达。p < 0.05。(B)肿瘤中CDK1、CDK2和CDC7激酶活性评分与相应调控蛋白的RNA和蛋白质丰度的Spearman相关性。p < 0.05。(C)肿瘤中活性增加的激酶及其磷酸化位点底物的网络。大彩色圆圈表示相应癌症队列中激酶活性增加。边缘连接到至少在一个队列中肿瘤样本中增加的磷酸化位点底物,底物根据宿主蛋白的层次着色。灰色节点表示在至少一个队列中增加的底物,但没有可用药的注释。

Evaluation of the predicted druggable dependencies

预测可成药依赖性的评估

Para_01
  1. 为了评估我们的预测质量与有效性(见图2A和3A),我们首先比较了每个目标层次中预测的有效靶点在所有可靶向基因中的比例。
  2. 这种分析是针对每种癌症类型单独进行的,仅限于在癌症类型中同时具有CPTAC和DepMap数据的可靶向基因。
  3. 对于所有癌症类型,预测的有效靶点比例最高的一致出现在第一层,这是预期的,因为第一层包含了已经批准的肿瘤药物靶点。
  4. 与第2层、第4层和第5层相比,第1层的中位数比例显著更高(p < 0.01,Wilcoxon符号秩检验;见图4A)。
  5. 第1层和第3层的中位数比例之间的差异较小(p = 0.016)。
  6. 这一发现可以通过的事实来解释,即尽管第3层基因目前没有被批准的肿瘤药物靶向,但它们通常是肿瘤研究的重点。
  7. 这些发现表明我们的预测富含已批准或正在研究的肿瘤药物靶点。

[图片上传失败...(image-aa5ad1-1727113920022)]

  • 图4.优先药物靶点的评估和验证(A)箱形图显示了通过药物靶点层次预测的所有可靶点基因中有效靶点的比例。p值来自Wilcoxon符号秩和检验。(B)工作流程描述了使用PRISM初步筛选药物反应数据集对优先靶点进行系统评估的过程。(C)使用CRISPR数据单独、肿瘤与正常数据单独以及两种方法结合对各种癌症类型优先选择有效药物靶点的成功率。p值来自z检验。(D)三种方法的敏感性、特异性和准确性。(E-G)小提琴图比较了肿瘤与正常(上板,p值来自Wilcoxon秩和检验)的靶蛋白丰度和细胞系中靶点依赖性评分(下板,p值来自单样本t检验)的层次4靶点CAD(E)、PAK2(F)和ITGB5(G)。(H-J)绘制了细胞生长(左板)和细胞系异种移植肿瘤体积(右板,每组4-6只小鼠)的图表,来自对照和第4层靶点敲低细胞系shCAD(H)、shPAK2(I)和shITGB5(J)。数据是平均值±SEM。p值来自t检验。p<0.05,p<0.01,**p<0.001,****p<0.0001。另见图S4和表S5。
Para_01
  1. 为了进一步评估我们的预测,我们使用了来自药物重定位资源PRISM(同时混合物中相关抑制的剖析和相对抑制)的初步筛选数据(STAR方法)。
  2. 在1-3层的1075个可用药蛋白中,我们能够针对325个分子靶点评估648种独特药物的反应,这些分子靶点同时具有CPTAC和DepMap CRISPR KO数据(图4B)。
  3. 总体而言,这些实验在所有5184个药物-细胞系对中显示出15%的成功率(平均log2存活率降低>0.3,p<0.01,单样本t检验)。
  4. 然后,我们比较了三种不同方法的预测性能:仅CRISPR,仅肿瘤与正常组织比较,以及我们的结合两种策略的方法(图4C,4D和S4A-S4C;表S5A)。
  5. 仅基于CRISPR的预测将识别成功PRISM药物反应的机会从15%增加到22%(p<2.2e-16,z检验),在三种方法中显示出最高的灵敏度和最低的特异性,准确率为57%。
  6. 仅基于肿瘤与正常组织比较的预测将药物反应识别的机会增加到29%(p<2.2e-16,z检验),显示出比仅CRISPR方法更低的灵敏度和更高的特异性,并产生相对更高的准确率,为67%。
  7. 我们的方法,整合了肿瘤-正常比较和细胞依赖性数据,实现了识别成功药物反应的最高率,将成功率从15%提升到39%(p=2.9e-8,z检验),相应地使成功药物实验的可能性增加了2.6倍。
  8. 尽管我们的方法与仅CRISPR方法相比显示出较低的灵敏度,但它将特异性从53%提高到了83%(提高了57%),将准确率从57%提高到了76%(提高了33%)。
  9. 鉴于这些方法产生了大量的预测,高特异性和准确率对于提名真正有前景的靶点进行进一步实验和临床验证至关重要。
Para_02
  1. 值得注意的是,在我们的评估中,一些假阳性,例如基于对研究用的HDAC1抑制剂tacedinaline和聚(ADP-核糖)聚合酶(PARP)抑制剂niraparib、olaparib和rucaparib无反应的情况,可能是由于这些药物的低效价所致。
  2. 这种解释得到了对已批准的HDAC1抑制剂belinostat和panobinostat以及更有效的PARP抑制剂talazoparib23的积极反应的支持(图S4D和S4E)。
  3. 相反,一些明显的假阴性,例如基于对PRKCB抑制剂enzastaurin和MAP2K1/MAP2K2抑制剂refametinib在几种没有预测依赖性的癌症类型中的反应,根据Sanger的癌症药物敏感性基因组学(GDSC)数据库的药物反应数据,被验证为真阴性(图S4F和S4G)。
  4. 因此,我们预测的实际准确度可能超过了根据PRISM评估得出的76%的估计值。

[图片上传失败...(image-9a5434-1727113920021)]

  • 图S4。优先药物靶点的评估和验证,与图4(A-C)相关。用于评估药物-癌症类型对预测性能的混淆矩阵,使用CRISPR KO数据(A)、肿瘤与正常(TvN)数据(B)或组合(C)预测细胞系中实际药物反应的有效药物靶点在PRISM初级筛选中观察到。1表示PRISM中药物-癌症类型对的敏感性或预测药物-癌症类型对的有效靶点,否则为0。(D和E)PRISM的药物反应和预测HDAC1(D)和PARP1/2(E)的有效性。(F和G)PRISM和GDSC的药物反应以及预测PRKCB(F)和MAP2K1/2(G)的有效性。(H和I)小提琴图比较肿瘤与正常(顶部面板,p值来自Wilcoxon等级和检验)、细胞系中的靶点依赖性评分(中间面板,p值来自单样本t检验)和细胞系对针对该靶点的药物的反应(底部面板,p值来自单样本t检验)二级靶点SQLE(H)和三级靶点HSP90AA1(I)。(J和K)使用tanespimycin(J)和alvespimycin(K)对PRISM对泛癌三级药物靶点HSP90AA1的响应进行实验验证,48小时处理后。图表显示3至4次独立实验的平均存活率±SEM相对于载体对照,图例下方显示平均IC50。(L)绘制了HT29结肠癌细胞系异种移植瘤治疗组(每组9只小鼠)接受载体对照或alvespimycin治疗的平均肿瘤体积±SD。(M)绘制了HT29异种移植小鼠(每组9只小鼠)的平均体重±SD。(N)western blots显示对照和shRNA敲低结肠癌(LOVO和HT29)和胰腺癌(BXPC3)细胞系中PAK2、CAD和ITGB5的蛋白水平。
Para_02
  1. 尽管我们预测的泛癌症靶点(在五种或更多癌症类型中有效的靶点)中有四分之三通过PRISM反应数据得到验证属于第一层级,但我们预测的第二层级和第三层级的几个靶点也获得了验证(表S5A)。
  2. 例如,针对第二层级靶点SQLE的药物那夫替芬,以及针对第三层级靶点HSP90AA1的药物阿尔韦斯皮米辛和塔内斯皮米辛,在多种癌症谱系中均显示出显著的疗效(图S4H和S4I)。
  3. 为了确认PRISM的高通量、多路复用筛选结果,我们使用了一种低通量、非多路复用的方法,在代表不同癌症类型的八种细胞系上进行了阿尔韦斯皮米辛和塔内斯皮米辛的药物反应实验。
  4. 绝大多数细胞系的两种药物的半最大抑制浓度(IC50)值都低于1μM,这加强了PRISM研究的发现(图S4J和S4K)。
  5. 为了将这种验证扩展到体内设置,我们用阿尔韦斯皮米辛(50mg/kg,每天腹膜内给药)治疗了HT29结肠癌细胞系异种移植瘤。
  6. 与载体对照组相比,经阿尔韦斯皮米辛处理的小鼠肿瘤体积显著减小(图S4L)。
  7. 重要的是,阿尔韦斯皮米辛治疗在治疗7天后开始诱导肿瘤消退(图S4L),并且治疗组的体重与 control 组相比没有明显变化(图S4M)。
Para_03
  1. 我们的分析还确定了几种目前尚未开发药物的等级4和等级5靶点,作为潜在的泛癌症靶点(见图2B和3B)。
  2. 我们选择了三个这样的靶点进行低通量实验验证,使用短发夹RNA(shRNA)敲低,包括CAD,一种负责核苷酸合成的酶(见图4E);
  3. PAK2,PAK家族激酶的成员之一(见图4F);以及ITGB5,一种负责细胞粘附和信号传导的细胞表面整合素(见图4G)。
  4. 针对每个靶点,我们建立了稳定的shRNA和对照细胞系,包括结肠癌(HT29和LOVO)和胰腺癌(BXPC3)细胞系。
  5. 由于技术原因,未生成稳定的shCAD LOVO细胞系。
  6. 在这些细胞系中,通过蛋白质水平确认了敲低(见图S4N)。
  7. 细胞增殖实验表明,与对照相比,靶点敲低抑制了细胞生长(见图4H-4J,左面板)。
  8. 此外,细胞系异种移植也显示,与对照相比,这些靶点的敲低在体内抑制了肿瘤生长(见图4H-4J,右面板)。
  9. 这些结果表明,我们的方法在确定候选靶点方面是有用的,这些候选靶点是脆弱的,因此可能是未来药物开发的潜在靶点。

Protein dependencies associated with the loss of TSGs

与肿瘤抑制基因丢失相关的蛋白质依赖性

Para_01
  1. TSGs 在癌症中经常受到功能缺失(LoF)基因异常的影响。
  2. 直接针对LoF TSGs进行治疗具有挑战性。
  3. 然而,这些TSGs的丢失可以诱导肿瘤特异性依赖其他肿瘤内的蛋白质,这使得这些蛋白质成为合成致死治疗策略的吸引人靶点。
  4. 我们对基于TSGs中LoF改变的频率的10种癌症类型进行了无监督层次聚类分析,特别是CPTAC和癌症基因组图谱(TCGA)数据集中的框移/无义突变或深度缺失。
  5. 此分析关注在所有CPTAC和TCGA样本中LoF改变超过3%的TSGs,结果表明在两个数据集中相同癌症类型的聚类是独特的(图5A;表S6A)。
  6. 这些TSGs的基因丢失与相应基因的mRNA和蛋白质丰度降低有关,但在ARID1A和KMT2D中观察到蛋白质水平比mRNA水平有更大的降低,而在TP53中观察到相反的情况(图5B)。

[图片上传失败...(image-92aeaf-1727113920021)]

  • 图5.识别基因组改变的肿瘤抑制基因的合成致死伴侣作为潜在靶点(A)热图显示了CPTAC和TCGA队列中基因组改变频率最高的肿瘤抑制基因。(B)来自(A)的肿瘤抑制基因对相应mRNA和蛋白质水平的顺式影响。(C)对于每种癌症类型,每个点代表蛋白质、磷酸位点或激酶活性在携带功能缺失基因突变的肿瘤中上调的重要性与其他肿瘤相比(x轴,值越高表示上调越显著),以及相应基因敲除导致具有肿瘤抑制缺失的匹配谱系细胞系增殖丢失的重要性与其他细胞系相比(y轴,值越低表示增殖丢失越显著)。(D)TOP2A蛋白质在TP53缺失的UCEC肿瘤中显著更高,且携带TP53缺失的UCEC细胞系对TOP2A的依赖性显著更高。(E)与没有TP53缺失的细胞系相比,TP53缺失的UCEC细胞系对拓扑异构酶抑制剂多柔比星和米托蒽醌更敏感。(F)ANAPC1 p-S334在TP53缺失的OV肿瘤中的含量显著更高,且携带TP53缺失的OV细胞系对ANAPC1的依赖性显著更高。(G)在TP53缺失的BRCA肿瘤中,推断的CHK1活性显著更高,且携带TP53缺失的BRCA细胞系对CHK1的依赖性显著更高。(H)三种癌症类型中TP53缺失相关依赖性的总结。请参见图S5和表S6。
Para_01
  1. 为了系统地探索与肿瘤抑制基因(TSG)丢失相关的潜在蛋白依赖性,我们分析了每种癌症类型中肿瘤样本的TSGs基因缺失与蛋白丰度、磷酸化位点丰度和推断的激酶活性评分的变化之间的关联。
  2. 此外,对于每个TSG-蛋白、TSG-磷酸化位点和TSG-激酶活性对,我们使用了DepMap中匹配的癌症系谱的CRISPR数据来确定具有TSG功能丧失异常的细胞系是否与相应基因的依赖性增加,与没有这些异常的细胞系相比(图S5A)。
  3. 大多数确定的与TSG丢失相关的依赖性是特定于癌症类型的(图5C和S5B-S5D;表S6B-S6D)。
  4. 仅在KMT2D突变体中发现了对RPL22L1的依赖性,在COAD和UCEC中都存在。
  5. 有趣的是,确定的TSG-磷酸化位点对通常比相应的TSG-蛋白对显示出更显著的相关性(表S6E),这表明是磷酸化而不是蛋白丰度主要驱动了这些依赖性。
  6. 同样,TSG-激酶活性对的相关性与基于激酶蛋白丰度的结果不同(图S5B-S5D)。

[图片上传失败...(image-72f557-1727113920021)]

  • 图S5:与图5相关的肿瘤抑制基因相关依赖性。(A)我们整合了来自肿瘤样本的蛋白组学数据和来自癌细胞系的基因筛查数据的工作流程,以识别与肿瘤抑制基因相关的依赖性。(B)统计肿瘤和细胞系分析中的肿瘤抑制基因-蛋白对的图。x轴表示Wilcoxon秩和检验的符号-log10 p值,比较具有肿瘤抑制基因伴侣基因组改变的肿瘤中的蛋白表达与按癌症类型剩余的肿瘤。(C)统计肿瘤和细胞系分析中的肿瘤抑制基因-磷酸位点对的图。轴类似于(B),但用于x轴计算的磷酸位点数据。(D)统计肿瘤和细胞系分析中的肿瘤抑制基因-激酶活性对的图。轴类似于(B),但用于x轴计算的激酶活性数据。
Para_01
  1. 由于TP53是癌症中发生变异最频繁的基因,我们接下来重点关注TP53的一些具体关联实例,以更好地理解它们的生物学和临床治疗意义。
  2. 一个例子是UCEC中的TP53-TOP2A,在该例子中,TOP2A蛋白在TP53缺失的肿瘤中的含量显著更高,与其它细胞系相比,TP53缺失的子宫癌细胞系对TOP2A的依赖性更高(见图5D)。
  3. TOP2A是一种能够调节DNA拓扑结构的拓扑异构酶,它之前已被报道为TP53缺失的合成致死伴侣。
  4. 在TP53缺失的情况下,TOP2A是必需的,以防止复制和转录之间的干扰。
  5. 此外,TOP2A S1247水平的升高也与TP53缺失有关,这加强了蛋白水平的数据。
  6. TOP2A S1247是一个有丝分裂磷酸化位点,它影响酶的亚细胞定位和在有丝分裂染色质上的停留时间,这表明TOP2A在携带TP53缺失的肿瘤中具有直接的功能作用(见图5D)。
Para_02
  1. TOP2A是化疗药物如多柔比星的目标,它会抑制拓扑异构酶的活性。
  2. 多柔比星目前被批准用于治疗UCEC患者,在未经选择的患者中的总反应率为16%。
  3. 在分析DepMap的体外药物反应数据时,发现与没有TP53缺失的细胞系相比,具有TP53缺失的子宫癌细胞系对多柔比星更敏感(见图5E)。
  4. 此外,与野生型(WT)TP53的细胞系相比,具有TP53缺失的子宫癌细胞系对另一种拓扑异构酶抑制剂米托蒽醌也显示出增加的敏感性(见图5E)。
  5. 据报道,米托蒽醌在未经选择的UCEC肿瘤患者中缺乏临床活性。
  6. 这些发现提示需要进一步研究将TP53缺失作为一种生物标志物,以选择适合用多柔比星和米托蒽醌治疗的UCEC患者。
Para_03
  1. 在OV肿瘤中,ANAPC1 S334的含量显著增加,但宿主蛋白水平没有变化,这一点在携带TP53缺失的样本中尤为明显(图5F)。
  2. 此外,TP53缺失的OV细胞系对ANAPC1的依赖性明显更高(图5F)。
  3. TP53的缺失会促进细胞周期进程,这可能会增加对包括ANAPC1在内的后期促进复合体的活性需求。
  4. 尽管ANAPC1 S334的研究还不充分,但它可能代表了一个未被充分研究的ANAPC1磷酸化位点,该位点介导ANAPC1的活性,并最终影响细胞周期进程。
Para_04
  1. 最后,与其它肿瘤相比,BRCA肿瘤在TP53丢失时CHK1激酶活性更高(图5G)。
  2. CHK1激活TP53,然后TP53又反向下调CHK1。
  3. 在没有TP53的这种负调控下,BRCA肿瘤中CHK1的活性会增加,且CRISPR技术敲除其基因CHEK1后,TP53丢失的BRCA细胞系适应度损失更大(图5G)。
  4. 这些数据突显了一个关系,即伴侣基因的活性会直接受到肿瘤抑制基因丢失的影响。
  5. 之前的一项研究显示,与野生型TP53 PDX模型相比,携带截短的TP53突变的乳腺癌患者来源异种移植肿瘤(PDX)对CHK1抑制剂与DNA损伤剂的联合治疗更敏感。
  6. 同一项研究还使用了一个带有TP53敲低的同基因PDX模型,结果表明,与野生型TP53对照肿瘤细胞相比,联合治疗增加了TP53突变肿瘤细胞的凋亡。
  7. 我们从人类肿瘤中的发现强化了使用TP53状态作为生物标志物来选择适合CHK1抑制的乳腺癌患者的潜在效用。
Para_05
  1. 图5H概述了各种癌症类型中与TP53缺失相关的依赖性。这些发现说明了蛋白质基因组学方法在识别与TSGs丢失相关的蛋白质依赖性方面的实用性,揭示了潜在的治疗机会。
  2. ,

Proteogenomic identification of neoantigen candidates

蛋白质基因组学鉴定新抗原候选物

Para_01
  1. 体细胞突变产生的 neoantigens 是疫苗和基于 T 细胞的免疫疗法的有吸引力的靶点。
  2. 根据人类肿瘤的基因组测序,已经预测出数百万个可能的由突变产生的 neoantigens,但在基于 MS 的免疫肽组学中检测到的却很少。
  3. 由于 neoepitopes 是肽而不是核酸序列,并且表达是识别真正 neoantigens 的关键特征,我们认为突变肽的蛋白质组学证据对于优先考虑免疫疗法开发的体细胞突变是有用的。
  4. 我们使用 NeoFlow 对蛋白质组学、磷酸蛋白质组学以及配对的 DNA 和 RNA-seq 数据进行了综合分析,以系统地预测具有蛋白质表达证据的由体细胞突变产生的 neoantigens(图 6A)。

[图片上传失败...(image-4de62e-1727113920020)]

  • 图6.使用蛋白质基因组学数据预测体细胞突变衍生的新抗原。(A)新抗原优先级排序的蛋白质基因组学工作流程概述。(B)每种癌症类型识别的体细胞突变衍生变异肽段的数量。(C)具有在蛋白质组学数据中检测到与未检测到的突变基因的蛋白质丰度(log2 MS1强度)。(D)具有蛋白质组学支持的假定新抗原的样本百分比。(E)预测在至少两个肿瘤中产生新抗原的突变。(F)预测在患者中产生新表位的KRAS突变肽段及其相应的HLA类型。另见表S7。
Para_01
  1. 通过将全球蛋白质组和磷酸蛋白质组数据与来自匹配的DNA和RNA测序数据的样本特异性定制蛋白质数据库进行搜索,我们在10种癌症类型中鉴定出27-533个突变肽段(图6B)。
  2. 在UCEC中鉴定出大量突变肽段,是由微卫星不稳定性高(MSI-H)或聚合酶ε(POLE)突变的样本亚群驱动的,
  3. 而与其它癌症类型相比,LSCC、LUAD和HNSCC中鉴定的突变肽段数量相对较高,这与这些癌症类型中相对较高的突变负担相关。
  4. COAD中也存在MSI-H或POLE突变的样本亚群,但与其它队列相比,本研究中的蛋白质组深度较低,突显了蛋白质组深度在鉴定突变肽段中的重要性。
  5. 此外,与未在蛋白质水平检测到突变的基因相比,在蛋白质水平检测到突变的基因的蛋白质丰度要高得多(图6C),
  6. 这表明蛋白质丰度在突变肽段的鉴定中也起着重要作用。
Para_02
  1. 我们预测了所有可能突变表位与基于DNA-seq数据推断的特定病人的人类白细胞抗原(HLA)等位基因的结合亲和力,这些突变均具有蛋白质水平的证据。
  2. 结合亲和力低于500nM的突变表位被视为潜在的neoantigens。
  3. 在10个癌症队列中,至少有一个预测neoantigen的样本百分比从21%到73%不等(图6D)。
  4. 这表明许多病人有潜力从基于neoantigen的免疫疗法中受益。
Para_03
  1. 我们的系统分析共鉴定出2315个可能的neoantigens,与846个体细胞突变相关(表S7)。
  2. 在可能的neoantigens中,有180个来自39个癌症基因,这些基因在癌症基因普查数据库中被注释为高置信度的致癌基因或肿瘤抑制基因,例如CTNNB1、TP53、KRAS、DDX3X、EGFR、ERBB3、FOXA1、MAPK1、HRAS和ARID1A。
  3. 其中一些新表位肽或其高度相似的形态(例如,覆盖我们预测肽段的更长肽段)已在临床前或临床上进行了研究。
  4. 这些包括由KRAS G12C、G12D和G13D以及IDH1 R132H和TP53 R273C突变产生的新表位肽。
Para_04
  1. 我们预测的大多数产生新抗原的体细胞突变都是特定于个别患者的肿瘤,并且由此产生的新抗原很可能是私有的新抗原。
  2. 然而,有五个突变被预测至少在两个肿瘤中产生新抗原,包括KRAS G12D、KRAS G12C、KRAS G13D、DAZAP1 G383Afs∗46和RBM39 D328Y(见图6E)。
  3. 在具有KRAS G12D突变的75个肿瘤中,53%产生了可检测的突变肽,31%被预测至少产生一个KRAS G12D衍生的 neoepitope。
  4. 其他两个KRAS突变也被预测在大量的肿瘤中产生neoepitopes。
  5. 值得注意的是,5个KRAS突变肽被预测在4种CPTAC癌症类型(PDAC、LUAD、UCEC和COAD)的44名患者中产生neoepitopes,使它们成为有希望针对的公共新抗原的候选者(见图6F)。

Identification and validation of tumor-associated antigens

肿瘤相关抗原的鉴定与验证

Para_01
  1. 我们预测的大多数突变衍生的新抗原是患者特异性的,这限制了它们作为预制疫苗或T细胞产品靶点的实用性。
  2. 因此,我们将搜索范围扩大到肿瘤相关抗原,方法是通过识别在肿瘤中过表达且在正常组织中表达高度受限的蛋白质(图7A)。
  3. 例如,MAGEA10(图7B),黑色素瘤抗原基因(MAGE)家族中的一个高度免疫原性的癌症/睾丸肿瘤相关抗原成员,肿瘤相关抗原可能在某一癌症类型中只有部分肿瘤异常表达。
  4. 因此,它们可能无法使用诸如t检验或Wilcoxon秩和检验的常规方法检测到。
  5. 因此,我们采用了安德森-达林(AD)检验,该检验专注于比较尾部区域的蛋白质丰度,以更好地捕捉仅在样本子集中观察到的丰度差异。
  6. 鉴定的蛋白质经过一个筛选过程,基于Genotype-Tissue Expression(GTEx)项目的数据中正常组织没有检测到可探测的mRNA,以及caAtlas数据库35中非癌样本没有实验性检测到的HLA-I肽(STAR方法)。
  7. 最后,我们使用PepQuery212对蛋白质的鉴定进行了正交验证,以减少潜在假发现的可能性。

[图片上传失败...(image-a14f34-1727113920020)]

  • 图7.肿瘤相关抗原的鉴定和实验验证(A)肿瘤相关抗原鉴定流程。(B)两种癌症队列中MAGEA10 RNA(顶部)和蛋白(底部)的表达。(C)通过AD测试和Wilcoxon秩和测试在所有队列中鉴定的显著差异表达蛋白的数量。(D)七种优先肿瘤相关抗原在六种癌症类型中的分布。点和框表示两种测试都有的鉴定或仅AD测试独有的鉴定。(E)对(D)中7种优先蛋白与最常见等位基因HLA-A∗02亲和力最高的67个肽进行结合亲和力和免疫原性的实验验证。条形图显示HLA-A∗02:01四聚体通过Q1替换百分比量化的交换效率。红线表示50%的替换作为鉴定强结合亲和力肽的阈值。热图显示ELISpot实验中每10万个细胞形成的斑点单位(SFUs)。红色粗体文字突出显示的22个肽既具有强的交换效率(>50%)又具有强的免疫原性(SFU > 150),是有望作为广泛应用的免疫治疗靶点的有希望候选物。(F)两位受试者中四种选定肽的结合亲和力(Q1象限表示替换百分比)的代表性流式细胞术图和ELISpot图像。见表S8。
Para_01
  1. 通过AD测试鉴定的显著差异表达蛋白的数量在8个具有正常样本的队列中从4,627到10,818不等(表S8)。这些完全涵盖了由Wilcoxon秩和检验鉴定的所有显著蛋白,在这些队列中增加了13%–38%(图7C)。
  2. 其中,140种蛋白质在GTEx正常组织中具有高度受限的表达,除了免疫特权组织之外,包括5种MAGE家族蛋白质,这些都是研究得很透彻的肿瘤相关抗原。
  3. 值得注意的是,MAGEA10和MAGEB2仅通过AD测试而非Wilcoxon秩和检验鉴定,而MAGEA4和MAGEA1通过AD测试在更多癌症类型中被鉴定,这证明了AD测试在肿瘤相关抗原鉴定中的价值。
  4. 我们关注了AD测试至少在2种癌症类型中显著过度表达的70种蛋白质的子集(表S8)。
  5. 在进一步移除了在caAtlas的非癌样本中有可检测到的HLA-I肽的蛋白质后,对9种蛋白质进行了PepQuery验证,最终优先考虑了7种蛋白质(图7D)用于实验验证。
Para_02
  1. 为了识别广泛适用于免疫疗法开发的肿瘤相关抗原,我们对7种蛋白质中的每一种选择了最多10个与最常见的等位基因HLA-A∗02预测结合亲和力最高的肽段。
  2. 此分析鉴定出67个肽段(表S8),我们通过竞争性肽段结合试验测试了这些肽段的结合亲和力。
  3. 此试验通过测量外加肽段取代预先结合在HLA四聚体上的肽段的交换效率来衡量结合亲和力。
  4. 其基本原理是,外加肽段与HLA的结合亲和力越强,它将越有效地取代预先结合的肽段,从而产生更高的交换效率。
  5. 所有67个选定肽段与HLA-A∗02:01四聚体的交换效率在2.38%到97.9%之间,其中约70%(47/67个肽段)的交换效率超过50%,这一阈值用于识别具有强结合亲和力的肽段(图7E)。
Para_03
  1. 我们接下来测试了这些肽是否能在 HLA-A∗02 个体中引发免疫原性反应,使用干扰素-γ (IFN-γ) ELISpot 分析。斑点的数量或斑点形成单位(SFUs)反映了识别并响应呈现的肽的活化 T 细胞的数量,是免疫反应强度的读出值。
  2. 来自中国的七名健康捐赠者(CN1–7)和来自美国的六名健康捐赠者(US1–6)接受了测试,所有捐赠者的 T 细胞对至少一种肽产生了反应,每 100,000 个 T 细胞中产生了≥5 个 SFUs(图 7E)。
  3. 例如,带有 HLA-A∗02:11 的捐赠者 US1 的 T 细胞培养对来自 MAGEA1 的 PEP4(CILESLFRAV)和来自 MAGEA10 的 PEP17(MMGLYDGMEHL)表现出强烈的反应,而带有 HLA-A∗02:01 的捐赠者 CN1 对来自 BRDT 的 PEP28(FSYAWPFYNPV)和来自 LEKR1 的 PEP40(YLVERQLQEI)表现出强烈的反应(图 7F)。
  4. 总的来说,来自 MAGEA1、MAGEA10、MAGEB2、BRDT 和 LEKR1 的 22 个肽同时显示出强大的交换效率(>50%)和强大的免疫原性(SFU > 150),它们是有望作为免疫疗法靶点进一步研究的候选对象(图 7E 中以粗红字显示)。

Discussion

Para_01
  1. 我们分析了来自10种癌症类型超过1000名患者的协调一致的CPTAC蛋白质基因组数据,为现有的癌症药物靶点提供了见解,并扩展了治疗靶点的范围。
  2. 我们通过系统地识别过度表达或超激活的可靶向蛋白质依赖性、肿瘤抑制基因缺失相关蛋白质依赖性以及新抗原和肿瘤相关抗原来实现这一点。
  3. 我们研究的核心优势在于我们对数据整合的全面方法。
Para_02
  1. 第一层次的整合利用了蛋白质组学数据,这些数据直接测量了被疗法针对的实体,以及其他类型的组学数据。
  2. 像其他研究一样,我们发现大量基因,包括一些可用药的基因,其mRNA和蛋白质水平之间的相关性较弱。
  3. 这种差异部分归因于通过蛋白质-蛋白质相互作用或蛋白质复合物形成后的翻译调控,这可以稳定蛋白质。
  4. 在本研究中,我们还识别出一组编码分泌蛋白的基因,这组基因的mRNA-蛋白质相关性较低。
  5. 除了蛋白质丰度外,我们的分析还包括从磷酸蛋白质组学数据推断出的蛋白质活性,从而识别出仅从全局蛋白质组学中无法识别的额外蛋白质靶标。
  6. 将蛋白质组学数据与基因组学和表观基因组学数据整合,进一步揭示了可用药的蛋白质,其过表达在肿瘤中是由基因突变、低甲基化和拷贝数扩增驱动的。
  7. 这些蛋白质更有可能是肿瘤启动和进展的驱动因素,因此,它们是疗法靶点的更有吸引力的选择。
  8. 另外,对于TSGs中的LoF基因变异,蛋白质组学和磷酸蛋白质组学数据的整合提供了一个有吸引力的策略,以发现蛋白质、磷酸位点和激酶活性,其抑制可能是合成致死的。
Para_03
  1. 第二级别的整合涉及同时利用来自肿瘤标本的分子剖析数据和来自癌细胞系的CRISPR-Cas9筛选数据。
  2. 人类肿瘤剖析研究的一个局限性在于这些研究本质上是关联性的,不能用来建立因果关系。
  3. 来自细胞系中遗传或药物扰动的高通量数据,如DepMap中可用的数据,为建立因果关系提供了强大的资源,但与临床疾病的相关性尚不确定。
  4. 通过识别在人类癌症组织中重要的基因,并将这些基因与细胞系扰动实验的表型结果相结合,我们可以强调最有可能成功的靶点以进行进一步的研究。
Para_04
  1. 第三层次的整合利用了CPTAC生成的泛癌症数据。
  2. 在单一研究中整合多种癌症类型不仅加强了在单一癌症队列研究中发现的关联,而且还突出了可能适用于多种癌症类型的常见治疗靶点。
  3. 尽管历史上药物的临床试验都是在单一癌症类型中进行的,但篮式试验测试组织不可知的分子靶向治疗药物在拉罗替尼和恩曲替尼用于神经生长因子受体酪氨酸激酶(NTRK)融合患者以及帕博利珠单抗用于高微卫星不稳定性(MSI)患者获得里程碑式的批准后,正在受到关注。
  4. 我们的泛癌症分析已经确定了一些组织不可知的蛋白质靶点候选者,这些候选者在专注于特定癌症类型中最有前景靶点的个别CPTAC研究中往往被忽视。
Para_05
  1. 我们还部署了管线,优先将新抗原和肿瘤相关抗原作为免疫治疗的靶点。
  2. 大多数预测的新表位仅对单个患者特异,但预测有5个KRAS突变肽会在4种癌症类型的44名患者中产生新表位,这表明其可能作为一种公共新抗原有潜在效用。
  3. 我们预测的几个KRAS新表位的HLA-I表达已在工程细胞中被检测到,使用的是目标质谱。
  4. 此外,最近的一项临床研究显示,针对突变KRAS G12D驱动突变的基因工程T细胞在一名难治性转移性胰腺癌患者中实现了实质性的肿瘤消退。
  5. 我们的分析为进一步前瞻性临床试验提供了更多证据,以进一步探究这种疗法在胰腺癌和其他癌症类型中的治疗潜力。
  6. 其他预测新表位的HLA-I表达和免疫原性将需要通过实验来验证。
  7. 此外,我们在GTEx正常组织中发现了140种表达高度受限但在CPTAC肿瘤中表达异常的蛋白质。
  8. 针对7种优先考虑的蛋白质,预测与最常见的等位基因HLA-A∗02有高结合亲和力的肽段进行实验性分析,确定了5种蛋白质中的22个肽段,这7种蛋白质既有强大的结合亲和力也有免疫原性,其中包括3个MAGE家族蛋白质和2个研究较少的蛋白质BRDT和LEKR1。
  9. 这些肽段可以作为广泛适用的免疫疗法靶点进一步研究。
Para_06
  1. 总之,通过整合来自10种癌症类型的6种组学数据类型以及外部细胞系和人体组织数据,我们创建了一个涵盖各种治疗方式的全面的蛋白质和肽靶点资源。
  2. 这个独特的资源,可以通过用户友好的网络门户https://targets.linkedomics.org访问,将为重新利用目前可用的药物和开发新的癌症治疗方法铺平道路。

Limitations of the study

研究的局限性

Para_07
  1. 我们的研究有几个局限性。首先,虽然我们使用药物反应数据评估了预测的可药用依赖性,但药物疗效和反应测量不准确等因素可能会影响我们的评估。
  2. 其次,我们的优先考虑聚焦于小分子药物和膜蛋白的靶点,排除了许多预测的蛋白依赖性。这突显了对创新疗法的需求,以针对传统上"不可药用"的蛋白。
  3. 第三,尽管我们的分析是在泛癌症背景下进行的,未来的研究可以适应并应用在这里发展的整合蛋白基因组学方法到特定的癌症类型或亚型。

STAR★Methods

Key resources table

关键资源表

Resource availability

资源可用性

Lead contact

主要联系人

Para_01
  1. 进一步的信息和资源、试剂的请求应直接联系并完成于通讯作者Bing Zhang(bing.zhang@bcm.edu)。

Materials availability

材料可用性

Para_01
  1. 本研究没有生成新的独特试剂。

Data and code availability

数据和代码的可获取性

Para_01
  1. 原始蛋白质组学数据文件由CPTAC数据门户托管,可以在以下网址访问:https://proteomics.cancer.gov/data-portal,也可以在蛋白质组学数据共享平台访问:https://pdc.cancer.gov
  2. 基因组学和转录组学数据文件可以通过基因组数据共享平台(GDC)数据门户访问:https://portal.gdc.cancer.gov
  3. 用于本出版物处理的的数据可以通过LinkedOmicsKB(版本1)访问:https://kb.linkedomics.org
  4. 本研究的结果可以通过以下网址的网页门户访问:https://targets.linkedomics.org

Experimental models and subject details

实验模型与受试者详细信息

Cancer cell lines

癌细胞系

Para_01
  1. 769P细胞是由叶定伟实验室捐赠的(复旦大学附属肿瘤医院泌尿外科,中国上海),SW1990细胞系是余现军实验室赠送的(复旦大学附属肿瘤医院胰腺外科,中国上海),CAL27细胞是从陈万涛实验室获得的(上海交通大学医学院附属第九人民医院口腔颌面头颈肿瘤科,中国上海),A2780细胞是从施婷燕实验室获得的(复旦大学附属中山医院妇产科,中国上海)。NCI-H2170和NCI-H1944细胞是由王永波实验室捐赠的(复旦大学基础医学院细胞与遗传医学系,中国上海)。HT29细胞是由李大卫实验室捐赠的(复旦大学附属肿瘤医院结直肠外科,中国上海)。Ishikawa细胞是从上海泉细胞生物技术有限公司获得的(泉细胞-I409,上海泉细胞生物技术有限公司,中国上海)。LOVO细胞是由高大明博士捐赠的(上海生物化学与细胞生物学研究所)。BXPC3细胞是从秦毅实验室获得的(复旦大学附属肿瘤医院胰腺外科,中国上海)。CAL27、HT29、Ishikawa、SW1990和LOVO细胞在37°C、5%CO2条件下,于添加了10%胎牛血清和青霉素-链霉素的DMEM培养基中培养。A2780、NCI-H2170、NCI-H1944、769P和BXPC3细胞在37°C、5%CO2条件下,于添加了10%胎牛血清和青霉素-链霉素的RPMI1640培养基中维持培养。

Lentiviral production and stable cell line generation

慢病毒生产及稳定细胞系的建立

Para_01
  1. 慢病毒是按照之前建立的方法生产的。
  2. 简而言之,我们从Broad研究所的RNAi联盟查询了shRNA序列(https://portals.broadinstitute.org/gpp/public/)。
  3. shRNA序列在表S5B中提供。
  4. 慢病毒的包装使用了三个质粒系统,包括用PLKO.1载体生成的shRNAs,并使用Lipofectamine 3000(Thermo)进行转染。
  5. 细胞在存在10μg/mL聚凝胺的情况下感染病毒,以提高转导效率。
  6. 然后使用10μg/mL嘌呤霉素选择稳定细胞系,持续时间为48小时。

Western blot

西方印迹

Para_01
  1. 使用RIPA缓冲液(Beyotime)制备细胞裂解物。将20μg蛋白质加载到4%-12% FuturePAGE凝胶(ACE)上,使用MOPS-SDS运行缓冲液,然后转移到0.22μm预平衡的聚偏氟乙烯(PVDF)膜(Millipore)上。
  2. 在转移步骤之后,将膜在室温下用5%脱脂牛奶在TBST中封闭一小时。
  3. 然后将膜与初级抗体一起孵育,初级抗体在5% BSA中稀释,并在4°C下过夜。
  4. 在洗涤步骤之后,将膜在室温下与次级抗体一起处理一小时。
  5. 经过四到五个额外的洗涤步骤后,使用增强化学发光试剂(ECL,Amersham Corporation,Heights,IL,USA)检测蛋白质。
  6. 本研究中使用的特定抗体如下:兔抗整联蛋白β5(Proteintech),兔抗CAD(克隆D2T8H)(Cell Signaling),兔抗PAK2(Cell Signaling),以及小鼠抗GAPDH-HRP(Yeasen)。

Cell proliferation and viability assays

细胞增殖和活性分析

Para_01
  1. 我们使用了CCK-8试剂(叶森,北京,中国)进行细胞增殖和药物反应活性分析,先将细胞接种在96孔板中,每孔1-5×10³个细胞。对于增殖实验,我们每天对细胞数量进行定量,持续四天。
  2. 在药物暴露条件下检测细胞活性时,细胞在接种24小时后,用不同剂量的阿韦斯皮霉素、塔内斯皮霉素(均来自Selleckchem)或DMSO对照处理,并培养48小时。
  3. 至少进行了三次独立实验。通过log-logistic回归(两参数、三参数或四参数)计算IC50值,使用R83中的'drc'软件包(v3.0-1)手动检查曲线,选择最佳拟合模型。

In vivo animal studies

体内动物研究

Para_01
  1. 我们从上海模式生物中心获得了4-6周大的雌性BALB/c裸鼠。
  2. 我们的研究严格遵循动物护理原则和伦理指南,并获得了上海模式生物中心动物护理和使用委员会的批准(批准号为2023-0034和2023-0065)。
  3. 为了评估该药物在体内的治疗效果,我们将HT29结肠癌细胞(5×10^6细胞在100μL PBS中)皮下注射到裸鼠的背部外侧。
  4. 小鼠被随机分配到对照组(2% DMSO in PBS)或alvespimycin治疗组(50mg/kg,每天腹膜内给药)(每组9只小鼠),从第0天开始治疗。
  5. 在治疗开始后的第7天,小鼠被处死。
  6. 为了测量HT29、LOVO结肠癌细胞和BXPC3胰腺癌细胞在体内的肿瘤生长,将对数生长期的对照细胞和相应的目标敲减细胞悬浮在PBS中(8×106-1×107细胞在150μL中),并皮下注射到裸鼠中(每组4-6只小鼠)。
  7. 肿瘤大小每隔1-3天使用数字卡尺测量一次,肿瘤体积使用公式计算:体积 =(宽度)^2 × 长度 × 0.52。

PBMC isolation and DC differentiation and maturation, Baylor College of Medicine (BCM)

PBMC 分离以及树突状细胞(DC)的分化与成熟,贝勒医学院(BCM)

Para_01
  1. 从健康志愿者那里采集外周血,按照贝勒医学院伦理委员会的协议进行。
  2. 通过使用Lymphoprep(StemCell Technologies,#07801)进行密度梯度离心,从外周血中分离出外周血单核细胞(PBMCs)。
  3. 然后将新鲜PBMCs通过使用CD14微珠(Miltenyi Biotec,130-050-201)进行磁珠选择,分离成CD14+和CD14-组分。
  4. 将CD14-细胞组分冷冻保存以供后续使用。
  5. 为了将CD14+单核细胞分化成树突状细胞(DCs),将细胞悬浮在含有IL-4(400 U/mL)和GM-CSF(800 U/mL)的CellGenix GMP DC培养基(CellGenix,# 20801-0500)中,浓度为0.5 x 106细胞/mL,并在24孔组织培养处理板的每个孔中培养1 mL。
  6. 在3天后补充细胞因子。
  7. 在5-7天后,通过轻轻刮取细胞收获未成熟的DCs。
  8. 然后将新鲜或冷冻的未成熟DCs通过将细胞悬浮在含有IL-4(400 U/mL)、GM-CSF(800 U/mL)、TNF-α(10 ng/mL)、IL-6(100 ng/mL)、IL-1β(10 ng/mL)和PGE-2(1 μg/mL)的CellGenix GMP DC培养基中,浓度为0.35 – 0.7 x 106细胞/mL,并在12孔组织培养处理板的每个孔中培养2 mL,2天后通过轻轻刮取细胞收获成熟的DCs。

Generation of BR-CGA specific T cells, BCM

生成BR-CGA特异性T细胞, BCM

Para_01
  1. 新鲜的成熟DC细胞被悬浮在含有25 ng/mL pepmix的100 μL CellGenix GMP DC培养基中,该pepmix包含来自九种癌症抗原(包括MAGE-A1和MAGE-A10)的76个HLA-A∗02:01预测肽段,然后在37°C和5% CO2的条件下孵育1小时,并用CellGenix GMP DC培养基洗涤一次。
  2. 装载了pepmix的DC细胞和融化的CD14- PBMCs在24孔组织培养处理板的每个孔中分别以0.2 x 106和2 x 106个细胞/孔的密度共培养,体积为每孔2 mL的CTL培养基(1:1 CLICKs:RPMI-1640,5%人AB血清,1X Glutamax),并补充了IL-7(10 ng/mL)、IL-12(10 ng/mL)、IL-15(5 ng/mL)和IL-6(100 ng/mL)。
  3. 6天后,T细胞按1:2的比例分瓶,每个孔用1 mL含有2倍浓度细胞因子的新鲜CTL培养基进行补充,以恢复第0天的浓度。
  4. 在第8-10天,收获T细胞,并用装载了pepmix的成熟DC细胞重新刺激扩增的T细胞,通过将它们分别以0.1 x 106和1 x 106个细胞/孔的密度培养在24孔组织培养处理板的每个孔中,体积为每孔2 mL的CTL培养基,并补充了IL-7(10 ng/mL)和IL-15(5 ng/mL)。
  5. 在重新刺激后的第3-4天,T细胞按1:2的比例分瓶,孔中用1 mL含有IL-15和IL-2的新鲜CTL培养基进行补充,最终浓度分别为5 ng/mL和100 U/mL,然后继续扩增T细胞,直至重新刺激后的第6-10天。

IFN-γ ELISpot assay, BCM

IFN-γ ELISpot 分析,BCM

Para_01
  1. 为了在ELISpot板(Millipore, #MSIPS4W10)上涂覆初级抗IFN-γ抗体(Mabtech, 克隆1-D1K),我们先用35%乙醇预处理孔40μL,时间少于3分钟,然后用PBS洗涤孔2次,最后加入100μL/孔的无菌过滤的9.1μg/mL初级抗IFN-γ抗体于ELISpot包被缓冲液中。
  2. 然后将板用石蜡膜包裹并在4°C下孵育至少过夜,最长可达两周。
  3. 为了阻孔板,我们用PBS洗涤孔2次,然后加入每毫升100μL的CTL培养基。
  4. 在37°C下阻孔板至少1小时。
  5. 阻孔后的板用PBS洗涤2次,然后每个孔中加入2 x 105 T细胞在200μL CTL培养基中,并加入最终浓度为12.5μg/mL的多肽。
  6. 阴性对照为仅含T细胞的培养基,阳性对照为含有2.5μg/mL PHA-L(Sigma, L4144)的T细胞。
  7. 细胞在约16小时后孵育,之后用PBS+0.05% Tween 20洗涤孔6次。
  8. 然后我们加入100μL/孔的无菌过滤的1μg/mL生物素化的次级抗IFN-γ抗体(Mabtech, 克隆7-B61)在PBS/0.5% BSA中,并在37°C下孵育至少2小时,最多48小时。
  9. 然后洗涤板6次,用PBS+0.05% Tween 20,之后加入100μL/孔的亲和素-过氧化物酶溶液(Vector Laboratories, #PK-6100),并在室温下孵育1小时。
  10. 然后我们用PBS+0.05% Tween 20洗涤板3次,再用PBS洗涤3次。
  11. AEC底物溶液通过将一片AEC(Sigma, # A6926)溶解在2.5mL二甲亚砜中,然后加入47.5mL醋酸缓冲液来制备。
  12. 使用前,每10mL AEC溶液中加入5μL的30%过氧化氢,然后溶液通过0.45μM PES膜过滤。
  13. 每孔加入100μL AEC底物溶液,并在室温下孵育3分钟30秒,之后轻轻用冷水洗涤板2次并干燥。
  14. 板图像使用Mabtech Iris ELISpot板读取器获取。

PBMC isolation, T-cell culture and expansion, Fudan University

PBMC分离、T细胞培养与扩增,复旦大学

Para_01
  1. 捐赠者的外周血单核细胞(PBMCs)是使用Lymphoprep(07851,Stemcell)获得的,然后按照Lin等人描述的方法与ImmunoCult-XF T细胞扩增培养基(10981,Stemcell)和10 ng/mL人重组IL-2(78036,Stemcell)一起培养。
  2. 向细胞悬液中加入25μL/mL ImmunoCult™ 人CD3/CD28 T细胞激活剂(10971,Stemcell),并孵育3天。
  3. T细胞在上述培养基中维持培养,直到数量达到实验要求。
  4. 复旦大学附属中山医院伦理委员会批准了整个流程(B2021-381)。

IFN-γ ELISpot assay, Fudan University

IFN-γ ELISpot 分析,复旦大学

Para_01
  1. ELISpot板根据制造商的说明进行处理。简而言之,用100μL/well的RPMI-1640预处理ELISpot板(2110003,DAKEWE)10分钟。
  2. 然后,我们移除RPMI-1640,并在每个孔中加入含有大约1×10^5个细胞和10μg/mL合成肽的100μL细胞悬液,用标准的96孔板塑料盖覆盖板子,并在CO2培养箱中37°C下孵育细胞。
  3. 共培养20小时后,用洗涤缓冲液洗涤ELISpot板,并用抗人IFN-γ和随后用链霉亲和素-HRP孵育。
  4. 然后使用AEC溶液对链霉亲和素-HRP进行染色,通过用冷水彻底冲洗来停止反应。
  5. 最后,使用ImmunoSpot板读取器和相关软件(Cellular Technologies,Ltd.)扫描和计数ELISpot板。

Peptide-MHC tetramer exchange assays, Fudan University

肽-MHC四聚体交换分析,复旦大学

Para_01
  1. 所有泛癌共享的肿瘤相关抗原肽均按照标准程序(GenScript生物技术公司)合成,并通过肽-MHC四聚体测定法估计肽与HLA位点的亲和力,如前所述。
  2. 将肽以100μg/mL的浓度加载到QuickSwitch Quant HLA-A∗02:01四聚体(PE标记)(TB-7300-K1,MBL国际)上。
  3. 我们使用HLA-A∗02:01四聚体试剂盒验证所有潜在肿瘤相关抗原肽的肽交换效率,并通过肽交换实验生成肽特异性四聚体。
  4. 将每个肽溶解在DMSO中,配制成10mM的溶液以进行测定。
  5. 然后,我们将50μL的HLA-A∗02:01四聚体滴加到U型底96孔微板每个孔中,加入1μL的肽交换因子和1μL的肽,轻轻用移液器混合。
  6. 我们对每个肽(包括参考肽)进行上述步骤,并在室温黑暗条件下过夜孵育混合物。
  7. 第二天,根据制造商的说明,加入磁珠与上述四聚体结合,在反应中应用FITC标记的抗体,该抗体识别出游离的肽。
  8. 通过流式细胞术测量原有肽被竞争肽替代的百分比,我们评估交换效率并确定所得四聚体是否适合后续染色。

Method details

方法细节

Data acquisition

数据获取

Para_01
  1. CPTAC 数据的获取和处理方式如 Li 等人所述。简而言之,数据是从基因组数据共享库(GDC)和蛋白质组数据共享库(PDC)中下载的。
  2. 各个队列的个体数据是使用通用的计算管道和相同的基因组装配及基因注释(GENCODE V34 basic (CHR))独立处理的。
  3. 所有组学数据都被映射到同一组初级蛋白同种物上。
  4. 通过将 RNA 和蛋白质组数据规范化到一个共同值,实现了跨队列的数据协调。
  5. 对于 RNA 数据,将编码基因的上四分位数规范化到 1,500,以实现跨癌症类型的规范化。
  6. 基于全局蛋白质组学和磷酸蛋白质组学数据定量分析的基因和磷酸位点的强度,通过将每种癌症类型的参考强度中值进行中值中心化,实现了跨癌症类型的规范化。
  7. 对于每个编码基因,计算了转录起始位点上游 1kb 处和 5’ UTR 的 CpG 岛的探针水平甲基化 beta 值的平均值。
  8. 本研究中使用的数据表是从 LinkedOmicsKB(https://kb.linkedomics.org/)下载的。

Drug targets

药物靶点

Para_01
  1. 药物和靶点从DrugBank版本5.1.97和指南至药理学版本2022.2.8中下载。在DrugBank中被标注为"已撤回"的药物被排除在外。"," Sentence_02": "我们只选择了每种药物的主要人类靶点,这些靶点具有已知的药理作用。"," Sentence_03": "具有诱导剂、激动剂、完全激动剂、部分激动剂、偏向激动剂或正性变构调节剂机制的靶点被排除。"," Sentence_04": "药物分为经监管机构批准的和其余所有药物。"," Sentence_05": "经监管机构批准的药物的靶点被指定为第1层,使用DrugBank的类级别4注释"抗肿瘤和免疫调节剂"进行指定。"," Sentence_06": "所有其他经批准的药物的靶点被指定为第2层。"," Sentence_07": "对于没有DrugBank类别注释的批准药物,使用药物标签手动指定其靶点。"," Sentence_08": "所有实验性药物的靶点被指定为第3层。"," Sentence_09": "如果靶点可以被指定到多个层次,则选择最高层次作为其最终分类(1>2>3)。

Potentially druggable genes

潜在的可成药基因

Para_01
  1. 可成药基因从药物基因交互数据库2022年2月9日版中下载。被注释为"可成药基因组"的基因,如果拥有来自所有三个来源的证据87,88,89,则被视为小分子可能的成药基因,并且如果它们尚未被分配到1-3层,则被分配到第4层。

Membrane proteins

膜蛋白

Para_01
  1. 从虚拟表面蛋白组中获取细胞表面蛋白(表S3来自文献11)。
  2. 表S2。选择带有"pos. trainingset"标签的蛋白,如果尚未分配到层次1-4,则将其分配到层次5。
  3. 这些蛋白质至少出现在三个数据集中的两个:细胞表面蛋白图谱(高置信度)、Uniprot的"细胞膜"关键词以及COMPARTMENTS数据库中的高置信度质膜蛋白(文献11)。

Gene annotation

基因注释

Para_01
  1. 功能家族注释于2022年8月5日从Pharos下载。
  2. 61个oGPCR被归类为"其他"。
  3. 预测的分泌蛋白(人类分泌组)从人类蛋白质图谱下载。

mRNA and protein rank abundance correlation

mRNA和蛋白质丰度排名相关性

Para_01
  1. 对于在至少50%的肿瘤mRNA和肿瘤蛋白数据中都有定量值的基因,计算了其中的中位表达值。
  2. 然后计算了各队列中的中位表达值。
  3. 对每个基因的中位mRNA丰度与中位蛋白丰度进行了局部加权回归平滑处理。
  4. 曲线上的最低点对应的log2 RSEM值为6,这个点被选作比较低mRNA丰度与较高RNA丰度的比较点。
  5. mRNA丰度和蛋白丰度的中位值使用Spearman相关性进行了比较。

PepQuery validation of protein identification

PepQuery 验证蛋白质识别

Para_01
  1. 选择表达量小于6的跨队列中位数肿瘤RNA log2 RSEM的基因进行验证识别。
  2. 基因也被限制在至少在3个队列中发现的,以关注泛癌症相关靶点。
  3. 对于每个基因,使用PepQuery算法进行验证,通过PepQuery2.12查询基因与队列中的最大数量的肽段识别。
  4. 如果在某个队列中基因未能通过PepQuery2验证,那么该基因也会在所有其他识别了该基因的队列中进行验证。
  5. 本次研究中用于每个基因验证的输入是FragPipe识别的肽段列表。
  6. 验证中使用的蛋白质参考数据库是GENCODE V34基本蛋白质数据库。

Gene-wise mRNA protein correlation

基因水平的mRNA与蛋白质相关性

Para_01
  1. 对于每个癌症队列,选择了在至少50%的患者中具有肿瘤RNA和肿瘤蛋白定量基因。
  2. 使用Spearman相关系数对每个基因的mRNA表达和蛋白丰度值进行相关性分析,并使用Benjamini-Hochberg方法对p值进行校正。

Pan-cancer mRNA and protein co-expression for CDK9 and HDAC3

CDK9和HDAC3在泛癌症中的mRNA和蛋白质共表达

Para_01
  1. 对于每个癌症队列,使用Spearman相关分析方法将CDK9和HDAC3的mRNA表达与所有其他基因的mRNA表达进行相关性分析。
  2. 同样,使用Spearman相关分析方法将CDK9和HDAC3的蛋白丰度与所有其他基因的蛋白丰度进行相关性分析。
  3. 每个基因至少需要10对配对值。
  4. 在10个队列中,使用R包metap(V1.4)中的sumz方法计算元p值。
  5. 将各个p值转换为单侧p值,并对不符合大多数的p值符号进行反转。
  6. 将元p值转换回双侧,并添加主要符号(超过50%的相关性的方向)。
  7. 如果正负相关值数量相等,则选择正号。

GSEA for CDK9 coexpression

CDK9共表达基因集富集分析

Para_01
  1. 在‘泛癌症mRNA和蛋白质共表达’中计算出的绝对元p值进行了负对数转换,并添加了主要符号。
  2. 排序列表被提交到WebGestalt69,用于基因本体生物学过程术语(去除重复)的GSEA分析。
  3. 除显著性水平过滤器使用FDR < 0.05外,选择了默认参数。

Activating phosphorylation sites

激活磷酸化位点

Para_01
  1. 为了识别所有蛋白质上的激活位点,从PhosphoSitePlus下载的调节性磷酸化位点(来自https://www.phosphosite.org/staticDownloads的调节位点数据库)被筛选出ORGANISM = "人类"且ON_FUNCTION = "诱导"的位点。
  2. 为了专门识别激酶上的激活位点,调节性位点进一步被筛选以聚焦于具有诱导酶活性的激酶(GENE)(ON_FUNCTION = "酶活性,诱导"),并且从文献中手动整理的激活位点也被添加到这个列表中。
  3. 激酶上的激活位点列表使用2022年3月从PhosphoSitePlus下载的最新信息进行了更新。

Differential expression analysis for tumor vs normal

肿瘤与正常组织的差异表达分析

Para_01
  1. 来自8种癌症类型(CCRCC、COAD、HNSCC、LSCC、LUAD、OV、PDAC和UCEC)的肿瘤样本和正常样本,用于进行蛋白质组学和磷酸蛋白质组学的差异表达分析。
  2. 为了获得高度可信的蛋白/激活磷酸位点候选物,我们只保留了在至少20个肿瘤样本和10个正常样本中检测到的蛋白质和激活磷酸位点。
  3. 使用无配对Wilcoxon秩和检验进行差异表达分析。
  4. 对于那些无配对Wilcoxon秩和检验调整后的p值小于或等于1%的蛋白质/磷酸位点,根据无配对Wilcoxon秩和检验的方向,进一步将其分类为上调蛋白质/磷酸位点和下调蛋白质/磷酸位点。

Matching cancer cell lineages to cancer types

将癌症细胞系与癌症类型相匹配

Para_01
  1. 为了将癌细胞与肿瘤癌症类型相匹配,我们对DepMap细胞系注释文件(sample_info.csv)应用了以下筛选条件:BRCA:primary_disease ="乳腺癌"并且lineage ="乳腺";CCRCC:primary_disease ="肾癌"并且lineage ="肾";COAD:primary_disease ="结肠/结直肠癌"并且lineage ="结直肠";GBM:primary_disease ="脑癌"并且lineage ="中枢神经系统";HNSCC:primary_disease ="头颈癌"并且lineage ="上呼吸道消化道";LSCC:primary_disease ="肺癌",lineage ="肺",lineage_sub_subtype ="非小细胞肺癌鳞状细胞癌";LUAD:primary_disease ="肺癌",lineage ="肺",lineage_sub_subtype ="非小细胞肺癌腺癌",OV:primary_disease ="卵巢癌",lineage ="卵巢";PDAC:primary_disease ="胰腺癌",lineage ="胰腺";UCEC:primary_disease ="子宫内膜/子宫癌",lineage ="子宫"

CRISPR gene effect score analysis for upregulated proteins and phosphosites

CRISPR 基因效应评分分析:上调蛋白质和磷酸化位点的分析

Para_01
  1. 来自Broad的Achilles和Sanger的SCORE项目的CRISPR敲除筛选得到的基因效应评分,涉及8种癌症类型(CCRCC、COAD、HNSCC、LSCC、LUAD、OV、PDAC和UCEC),从DepMap Public 22Q2下载(CRISPR_gene_effect.csv)。
  2. 对于每种癌细胞系,使用单样本、单尾T检验来识别在基因敲除后细胞生长显著降低的蛋白质/磷酸化位点候选物。
  3. 对于那些在肿瘤与正常样本中显著增加的蛋白质/磷酸化位点,将基因效应评分的符号调整p值低于零且小于或等于1%的视为治疗靶点候选物。

Annotation of pan-essential genes

泛必需基因的注释

Para_01
  1. 从DepMap Public 21Q4中下载了一份细胞系的全癌种必需基因列表(CRISPR_common_essentials.csv)。这些基因通过使用90%百分位数方法或自适应雏菊模型(ADaM)被预测为常见必需基因。

Protein expression driven by mutation

突变驱动的蛋白表达

Para_01
  1. 在每个队列中,选择了在至少10个样本中发生突变的基因。
  2. 为了比较野生型(WT)和突变型样本之间的RNA和蛋白质丰度,每个队列中至少有5个样本必须具有非缺失和非零的值。
  3. 表达水平的比较采用Student's t检验。

Protein expression driven by hypomethylation

低甲基化驱动的蛋白表达

Para_01
  1. 在每个队列中,通过使用Wilcoxon秩和检验比较肿瘤样本(至少需要20个样本具有数据)和正常样本(至少需要10个样本具有数据)之间的甲基化值来识别低甲基化基因。
  2. 要求基因具有p值<0.01,且肿瘤样本的中位甲基化值必须低于正常样本的中位甲基化值。
  3. 对于至少在50%的样本中具有非缺失值的基因,使用Spearman相关分析肿瘤甲基化值、RNA表达值和蛋白丰度值之间的相关性。

Protein expression driven by CNV

拷贝数变异驱动的蛋白表达

Para_01
  1. 在每个队列中,使用GISTIC270和CNV阈值+/-0.3确定局部扩增区域的基因。
  2. 在这些区域中,具有阳性q值<0.01的基因被认为是扩增的。
  3. 对于至少50%的样本中非缺失值的基因,使用Spearman相关系数来相关每个基因的CNV、RNA和蛋白质水平。
  4. 对于CNV到RNA和CNV到蛋白质均具有显著正相关(经Benjamini-Hochberg校正的p值<0.01)的基因,被认为是CNV驱动基因。

TP53 mutation effect on protein abundance

TP53突变对蛋白质含量的影响

Para_01
  1. 在每个队列中,样本被分为具有TP53突变和没有TP53突变的两组。
  2. 每个突变样本的log2 MS1强度蛋白丰度与同一队列中无TP53突变样本的中值log2 MS1强度蛋白丰度进行了比较。
  3. TP53蛋白序列和结构域是使用ragp71和protr72 R包创建的。

Kinase hyperactivation and single sample score calculation

激酶过度激活与单样本评分计算

Para_01
  1. 我们使用了激酶-底物富集分析(KSEA)来识别在肿瘤中相对于正常样本超活化的激酶。
  2. 对每种癌症类型分别进行了KSEA分析,使用的是在PTMsigDB v1.9中注释的激酶和底物。
  3. 磷酸化位点被表示为十五肽(磷酸化位点周围加减7个氨基酸)并根据每个队列中的对数 fold change(中位数肿瘤 - 中位数正常)进行排序。
  4. 每个激酶至少需要10个被测量的位点,p值是根据R中的z分数计算的。
  5. 具有正的KSEA z分数和本杰明-霍赫伯格调整后的p值<0.01的激酶被认为是肿瘤中超活化的。
Para_02
  1. 为了计算图5和S5的单个样本得分,磷酸化位点在每个队列中进行了中值中心化处理,并使用包含在PTMsigDB v1.9中的激酶靶点计算了每个单独样本的KSEA得分。
  2. 在这项分析中,我们要求磷酸化位点在任何一个给定数据集中至少有30个测量值,并且至少有五个激酶底物在给定样本中的测量值。
  3. KSEA标准化得分是使用R计算得出的,其实现方式如前所述。

Evaluation of predicted effective targets by target tiers

预测有效目标通过目标层级的评估

Para_01
  1. 我们对不同层次进行了分析,以检验预测的可药物依赖性的质量和可靠性。
  2. 这些预测的有效药物靶点是由肿瘤组织中特定癌症类型的蛋白质组学数据显著过表达或磷酸蛋白质组学数据显著超活化来定义的,同时也是由匹配的癌细胞系谱系中的CRISPR KO DepMap数据显著依赖来定义的(见图2A和3A)。
  3. 药物靶点被归纳到蛋白质/基因水平,每种癌症类型中每个层次确定的有效靶点数量除以蛋白质组学、磷酸蛋白质组学和CRISPR数据确定的相应层次的总量化靶点数。
  4. 这个结果值表示按层次预测的可药物靶点占所有可量化目标基因的比例(见图4A)。
  5. 使用Wilcoxon符号秩检验来检验层次1靶点的中位数比例与其他层次之间的差异。

Evaluation of predicted effective targets using PRISM data

使用PRISM数据评估预测的有效目标

Para_01
  1. 从DepMap下载了Broad研究所的PRISM Repurposing 19Q4 Primary Files,该文件包含了使用分子条形码方法对4,518种药物在578个人癌细胞系中的生长抑制活性的高通量药物反应数据。
  2. 初步筛选了在2.5μM药物处理5天后的细胞存活率。
  3. 评估了与我们的药物精选集匹配的药物反应,以及上述"药物靶点"方法部分中获得的伴随靶点,这些靶点也通过蛋白质组学和磷酸蛋白质组学在肿瘤和正常组织中进行了量化,并通过DepMap的细胞系中的CRISPR KO筛选进行了测量。
  4. 对于每种药物,分别评估了与肿瘤和正常分子数据相匹配的癌症细胞系(CCRCC、COAD、HNSCC、LSCC、LUAD、OV、PDAC、UCEC)的药物反应,每种药物与8种癌症类型形成8对。
  5. 如果特定谱系的所有细胞在治疗后与对照相比的平均log2存活率变化低于-0.3(单样本T检验,μ=-0.3),则认为该细胞对药物处理敏感,这是在PRISM手稿中定义的有效药物杀伤的截止值。
  6. 在测试同一药物的不同盐类时,我们保留了在药物-癌症类型对中最有效的药物盐,或者在平局的情况下随机选择一个药物盐。
  7. 对于每种独特的药物和8种癌症类型中的每一种,我们预测如果至少一个药物靶点在肿瘤与正常组织中通过蛋白质组学或磷酸蛋白质组学数据单独上调,或者在匹配的癌症细胞系谱系中的CRISPR KO数据中是依赖性,或者两者兼有,则认为该癌症类型对该药物有一个有效的靶点。
  8. 进行比例z检验,以测试我们的有效药物靶点预测是否可以改善在PRISM中识别药物-癌症类型对成功反应的识别。

Annotation of tumor suppressor genes

肿瘤抑制基因的注释

Para_01
  1. 肿瘤抑制基因从以下三个来源收集:(1)癌症基因普查(下载于2021年12月9日):仅筛选出第一层次的基因。(2)Bailey等人(2016年):筛选出表S1中的基因,这些基因具有高置信度的致癌基因和肿瘤抑制基因标签,来源于20/20+。(3)Tokheim等人(2016年):筛选标准为所有三个工具(20/20+、TUSON和MutsigCV)均支持每个基因为致癌基因或肿瘤抑制基因。

Genomic alteration of tumor suppressor genes in CPTAC and TCGA

CPTAC和TCGA中肿瘤抑制基因的基因组改变

Para_01
  1. CPTAC 样本的突变和拷贝数数据按照"数据获取"部分所述获取,TCGA PanCan 样本的数据则从 cBioPortal 下载。
  2. 通过计算每种癌症类型和队列中上述肿瘤抑制基因列表中的每个肿瘤抑制基因在样本中失去功能突变(移码突变和无义突变)和深度缺失(GISTIC 阈值得分 = -2)的频率。
  3. 选取平均改变频率在所有癌症类型和队列中大于3%的顶级肿瘤抑制基因,用于无监督层次聚类分析。

Impact of genomic loss on mRNA and protein levels

基因组丢失对mRNA和蛋白质水平的影响

Para_01
  1. 对于每个CPTAC癌症队列,通过Wilcoxon秩和检验比较了肿瘤抑制基因(移码/无义突变、深度缺失)基因缺失的样本与其它样本之间的肿瘤抑制基因的mRNA表达和蛋白丰度水平。

Cell line data

细胞系数据

Para_01
  1. 以下使用的DepMap细胞系数据(https://depmap.org/portal/):突变(CCLE_mutations.csv),拷贝数(CCLE_segment_cn.csv),全局TMT蛋白质组学,66来自Broad和Sanger研究的组合CRISPR KO依赖性数据(CRISPR_gene_effect.csv),18 Sanger的癌症药物敏感性基因组(GDSC)药物反应数据67以及Broad的混合物中同时进行相对抑制分析(PRISM Repurposing 19Q4 Primary Files)药物反应数据。
  2. 拷贝数段数据使用GISTIC2和GENCODE V34基本参考数据库进行处理,并使用与和谐CPTAC数据相同的参数:(-genegistic 1 -smallmem 0 -rx 0 -broad 1 -brlen 0.7 -conf 0.99 -armpeel 1 -savegene 1 -v 30 -maxseg 46000 -ta 0.3 -td 0.3 -cap 1.5 -js 4)。
  3. GISTIC对基因的阈值设置为-2,被认为是该基因存在深度缺失。

Protein/phosphosite/kinase activity dependencies for TSG

TSG 的蛋白质/磷酸位点/激酶活性依赖关系

Para_01
  1. 首先在肿瘤中检查了肿瘤抑制基因的基因丢失与蛋白质丰度、磷酸化位点丰度和推断的激酶活性评分之间的成对关系。
  2. 对于每种癌症类型,使用Wilcoxon秩和检验比较具有肿瘤抑制基因丢失的样本与其它样本的蛋白质/磷酸化位点/激酶活性评分。
  3. 使用大于0的符号-log10 p值进行绘图,值大于0表示在具有肿瘤抑制基因丢失的样本中蛋白质/磷酸化位点/激酶活性上调。
  4. 还使用来自DepMap的CRISPR-Cas9筛选数据,在匹配的癌症系中对每一对进行评估,以测试携带肿瘤抑制基因丢失(移码/无义突变、深度缺失)的细胞系是否比没有这些异常的细胞系更依赖于宿主蛋白质基因,通过Wilcoxon秩和检验。
  5. 使用小于0的符号-log10值进行绘图,值小于0表示当宿主基因在携带肿瘤抑制基因丢失的细胞中被CRISPR敲除时,细胞适应度降低更多。

Drug response analysis in cell lines

细胞系中的药物反应分析

Para_01
  1. 曲线下面积(AUC)响应(值越低表明药物敏感性越高)对多柔比星(GDSC1数据集)和米托蒽醌(PRISM数据集)来自DepMap的数据在UCEC细胞系中进行比较,这些细胞系中存在TP53基因丢失与不存在TP53基因丢失,使用Wilcoxon秩和检验。

Neoantigen prediction

新抗原预测

Para_01
  1. 使用改进版的NeoFlow进行了新抗原分析。
  2. 具体而言,我们使用Optitype来识别DNA-Seq数据中的人类白细胞抗原(HLA)。
  3. 然后,我们使用netMHCpan 4.0来预测8至11个氨基酸长度的体细胞突变衍生变异肽与HLA肽的绑定亲和力。
  4. IC50结合亲和力的截止值设为500nM。
  5. 移除了结合亲和力高于500nM的HLA肽。
  6. 变异鉴定也在蛋白质水平上使用MS/MS数据进行了。
  7. 为了识别变异肽,我们采用了一种定制化的蛋白质序列数据库方法。
  8. 我们从匹配的DNA和RNA测序数据中获得了定制化的蛋白质序列数据库,然后使用这些定制化的数据库对各个TMT或iTRAQ实验进行数据库搜索。
  9. 我们根据全外显子测序数据中识别的突变和RNASeq数据中的融合,为每个TMT或iTRAQ实验构建了一个定制化的数据库,数据下载自https://proteomic.datacommons.cancer.gov/pdc/cptac-pancancer
  10. 我们使用Customprodbj(https://github.com/bzhanglab/customprodbj)进行定制化数据库的构建。
  11. 使用MS-GF+对所有的全局蛋白质组和磷酸化数据进行变异肽的鉴定。
  12. MS-GF+的结果在PSM水平上用1%的FDR进行了过滤。
  13. 剩余的变异肽使用PepQuery进一步过滤,p值截止≤0.01。
  14. 变异肽的光谱使用PDV(https://github.com/wenbostar/PDV)进行了注释。

Tumor associated antigen identification

肿瘤相关抗原识别

Para_01
  1. 使用AD测试进行差异表达分析,只保留了调整后p值低于1%的蛋白质。
  2. 我们从GTEx下载了所有54种正常组织的RNA-Seq数据,并使用层次贝叶斯混合模型ZigZag来推断每种组织的基因表达状态。
  3. 表达蛋白被定义为ZigZag计算出的活动概率大于0.5的蛋白质,其余蛋白质被定义为不表达蛋白。
  4. 在除睾丸外的所有正常组织中未表达的蛋白质被定义为休眠蛋白。
  5. 通过在caAtlas35的非癌细胞样本中筛选HLA-I多肽,进一步过滤休眠蛋白,并且我们手动检查了剩余休眠蛋白的RNA-Seq和蛋白质组表达水平。
  6. 我们移除了在非睾丸组织中具有明显mRNA表达或 在8种癌症类型中mRNA或蛋白质表达较低的基因,最终得到9个肿瘤相关抗原的列表。
  7. 使用PepQuery减少假阳性的机会,并确定了7个肿瘤相关抗原。

Visualization

可视化

Para_01
  1. 药物靶点的维恩图是使用InteractiVenn78创建的,并在Adobe Illustrator中进一步格式化。
  2. 热图是使用ComplexHeatmap创建的。
  3. Cytoscape版本3.10.082用于创建激酶和磷酸化位点底物网络。

Quantification and statistical analysis

定量与统计分析

Para_01
  1. 除非另有说明,否则统计分析是使用R语言进行的。具体细节可以在结果和图例中找到。
  2. P值是通过Benjamini-Hochberg方法进行调整的。
上一篇下一篇

猜你喜欢

热点阅读