多组学分析完善CLL分类,强调蛋白质组学改善癌症患者分层潜力
Proteogenomics refines the molecular classification of chronic lymphocytic leukemia
蛋白质基因组学完善了慢性淋巴细胞白血病的分子分类
发表期刊:Nat Commun
发表日期:2022 Oct 20
影响因子:17.694
DOI: 10.1038/s41467-022-33385-8
一、研究背景
慢性淋巴细胞白血病(CLL)是西方国家最常见的成人白血病。它的特点是成熟的B淋巴细胞在外周血、骨髓和淋巴结中堆积。这种无法治愈的恶性肿瘤具有非常异质的临床过程。CLL的起源细胞是异质性的一个重要来源,其标志是免疫球蛋白重度变异(IGHV)基因的突变状态和特征性甲基化谱。
最近,CLL的遗传图谱已被很好地描述出来,这部分地解释了异质性的疾病过程。CLL中最常见的复发性体细胞突变改变了编码一小部分致癌途径成分的基因。其中包括DNA损伤反应途径、接受微环境输入的途径(NOTCH、Toll样受体和CD40信号),以及影响核糖体处理的途径。
整合基因组、转录组和临床结果的多组学分析可以改善对CLL的遗传变异和结果的理解。质谱技术的最新发展促进了对多个肿瘤标本进行并行的深度蛋白质组学分析。蛋白质组学与基因组学和其他数据层的整合已经开始增强我们对选定癌症实体的理解。
二、材料与方法
1、数据来源
1) 发现队列:45名CLL患者在收集样本时未接受治疗,23名患者之前接受过免疫化疗(n = 17)或新型药物治疗(n = 6);获得68个白血病样本和43种药物(Selleckchem)的3个浓度的药物反应谱
2) 验证1_DIA队列:进行DIA蛋白组学分析;总共有203个样本被DIA分析,其中36个来自最初的发现队列,167个验证样本,2个验证样本(CLL_DIA_209和CLL_DIA_165)由于蛋白质组覆盖率低(<3000个蛋白质被定量)而被排除在进一步分析之外;PXD024544
3) 验证2_Eagle队列:为了在外部队列中额外验证ASB-CLL的存在,利用了Eagle等人发表的18个CLL患者样本队列
4) 验证3_RNA队列:为了验证ASB-CLL的剪接特征,利用169名CLL患者的队列进行RNA测序;发现队列、验证1_DIA队列或验证3_RNA队列的样本之间不存在重叠;EGAS00001001746
5) 验证4_未经治疗的队列:为了评估12三体与IGHV突变状态在未经治疗情况下的相互影响,利用了Tissino等人发表的CLL队列;共包括620名患者
6) 验证5_伊布替尼队列:为了评估12三体和IGHV突变状态在伊布替尼治疗背景下的相互作用效果,利用了俄亥俄州立大学463名CLL患者的回顾性研究队列,这些患者均接受过伊布替尼治疗
2、分析流程
流程图三、实验结果
01 -基因型-分子表型的联系与功能后果
为了探索基因型与表型的关系,作者调查了CLL的已知复发性基因改变、mRNA表达和蛋白质丰度之间的关联。首先分析了蛋白质丰度与CLL复发性遗传畸变的关系,发现与其他遗传病变相比,12三体对蛋白质丰度差异的影响最强(图2a)。发现在12三体阳性CLL中,有54个蛋白质明显上调,13个蛋白质下调。IGHV突变状态(19个蛋白,其中包括ZAP70)和SF3B1突变(29个蛋白)也与多个不同含量的蛋白有关。接下来,分析了与CLL复发性遗传改变有关的基因表达(图2a)。同样,12三体(549个转录本)和IGHV突变状态(205个转录本)与许多重要的基因表达变化有关。
进一步调查了与12三体相关的蛋白丰度变化是否与基因剂量效应有关。虽然12三体如预期的那样增加了位于12号染色体上的蛋白质的丰度(图2b),但63%被鉴定为不同丰度的蛋白质是由位于其他染色体上的基因表达的。对于CLL的其他重要结构畸变,如13(q14)、11(q22-23)、17(p13)的缺失和8(q24)的增益,也观察到了影响mRNA和蛋白水平的类似基因剂量效应(补充图2a,b)。
即使像12三体或体细胞高突变的存在转化为mRNA和蛋白质水平的变化,但蛋白质丰度和相应的mRNA水平之间的总体相关性很低(图2c)。这与其他癌症报告的基因~蛋白质相关性相当,表明癌症蛋白质组的广泛翻译后调节。在所有量化的基因和相应的蛋白质中,42%显示出显著的正相关关系。与12三体或IGHV突变状态相关的差异丰富的蛋白质表现出比未相关的蛋白质更高的mRNA~蛋白质相关性(图2d)。而与SF3B1突变相关的不同丰度的蛋白则不是这种情况(图2d)。这些发现进一步证明了12三体和IGHV突变的CLL中蛋白丰度变化和基因表达变化之间的直接联系,而SF3B1突变的致瘤作用是由转录后机制引起的。
虽然TP53、ATM和XPO1突变与相对较少的不同丰度的蛋白质有关,但检测到了具体的和生物学相关的蛋白质丰度变化。与野生型样本相比,p53是TP53突变样本中上调最多的蛋白质(图2e)。相反,TP53转录物在TP53突变的CLL样本中明显下调(图2f),表明转录后机制是CLL中突变p53积累的原因,正如其他血癌所提示的那样。体外药物反应筛选显示,TP53突变的CLL样本对化疗和MDM2抑制剂nutlin 3a的反应比TP53野生型样本更差(图2g)。这个例子说明了如何利用多组学分析来追踪体细胞突变对转录组和蛋白质组的影响,以及最后对药物反应的功能后果。
图2 遗传改变、蛋白质组学和转录组学之间的相互作用作者进一步发现,肿瘤抑制因子ATM和核转运蛋白XPO1的蛋白水平在突变型样本中低于野生型样本(补充图2c, d)。这两种关联只在蛋白质而不是转录本水平上观察到(补充图2c,d)。
补充图202 -综合分析揭示了与结果相关的蛋白质组学因素
作者进行了无偏见、无监督的多组学因素分析(MOFA),以获得多个数据集的综合协变观点。MOFA显示有11个潜在因素(LF),每个因素至少解释15%的变异(图3a)。只有LF1、LF2和LF9与下一次治疗的时间(TTNT,图3b)显著相关。LF1和LF2在所有数据层(蛋白质组、RNA和遗传学)中都很活跃,在遗传学数据中主要由12三体和IGHV突变状态驱动(图3c)。在发现队列中,加载在LF1和LF2上的蛋白质不仅与TTNT显著相关(图3d),而且在DIA蛋白质组学验证队列(Validation1_DIA)中也显示出与总生存率显著相关。有趣的是,LF9在蛋白质组学数据中几乎是完全活跃的,除了LF1和LF2之外,它是唯一与临床结果显著相关的因素。因此,MOFA显示,蛋白质组学分析发现了其他数据层没有检测到的临床相关生物学。
图3 蛋白质基因组学数据集的多组学因素分析(MOFA)03 -基于蛋白质组学的CLL分层确定了六个不同的亚组
作者发现了蛋白质组学层与临床结果的关联(TTNT),这在转录本或基因层面上是无法发现的。因此,决定以无偏见的方式深入探索蛋白质组学层。为了描述患者蛋白质谱之间的相似性和差异,对蛋白质数据集进行了共识聚类。这显示了六个蛋白质组(PG;图4a)。T型分布的随机邻居嵌入(t-SNE)和主成分分析支持对这些亚组的划分。
接下来,分析了是否有任何基因改变与不同的PGs有关,发现四个PG代表三体12/M-CLL(Tris12M-PG,n = 9),三体12/U-CLL(Tris12U-PG,n = 8),M-CLL(M-PG,n = 18)和U-CLL(U-PG,n = 17,图4b)。值得注意的是,一名Tris12M-PG患者被注释为12号染色体阴性,但却携带了一个亚克隆12号染色体。Tris12M-PG、Tris12U-PG和M-PG富集了未经治疗的患者。第五个亚组,TP53-PG,只包括4个病人样本,但4个样本中有3个携带TP53突变(图4b)。根据LF9的发现,它完全活跃在蛋白质组学层,另外发现了一个新的基于蛋白质组学的亚组,与所有其他亚组相比,它没有显示出与已知的复发性基因改变的任何关联(New-PG)。在新PG中只有12三体细胞被耗尽。
为了将这些基于蛋白质组的群体与转录组联系起来,作者对相应的转录组数据进行了共识聚类。基于转录组的亚组仅与蛋白质组的组别部分重叠(图4c)。RNA组1-3和蛋白质组Tris12U-PG、Tris12M-PG、M-PG和U-PG组之间有对应关系,但没有基因注释的新亚组(New-PG)和TP53-PG(TP53)被分割成多个转录组亚组。进一步调查了所有PGs的药物反应情况。虽然效果大小不同,但各组对大多数CLL相关的药物都有体外反应。只有TP53突变组TP53-PG对许多药物包括化疗药物的总体反应较差。
基于蛋白质组学的分组将不同TTNT的患者分开,证明了亚组的临床意义(图4d)。虽然新PG没有富集高危因素,如突变的TP53和未突变的IGHV基因,但它在所有PG中具有最短的TTNT(图4d)和最快的体内淋巴细胞加倍时间,这表明这些肿瘤的增殖能力增加(图4e)。相比之下,M-PG(M-CLL,无12三体)的TTNT明显长于所有其他亚组,这是预料之中的。综上所述,相对蛋白丰度的无监督聚类将CLL患者划分为六个生物学和临床相关的组,其中五个可以用已知的遗传特征来解释,而一个新的亚组,其结果不佳,只能根据蛋白质组学来识别。
图4 蛋白质组学特征的共识聚类将CLL划分为六个亚组04 -新的不良结局蛋白质组ASB-CLL组的细胞过程失调情况
新的不良结局亚组约占我们发现的队列的20%,只能在蛋白质水平上进行鉴定。为了描述该组中哪些途径和过程发生了改变,作者分析了新的和其他PGs之间不同的蛋白质丰度。富集分析确定BTK、PLCG2和PIK3CD等BcR信号蛋白是新PG中下调最多的蛋白(图5a,补充图5a、b)。这些中央BcR信号组件在New-PG中的下调与IGHV突变状态无关,尽管后者是CLL34中BcR活性的一个重要替代物。进一步测量了样本在基质细胞和CLL细胞共培养模型中对伊布替尼的体外反应,这表明New-PG对BcR抑制剂伊布替尼的反应较小(补充图5c)。此外,BcR信号蛋白的磷酸化水平在新PG中也表现出类似的下调(图5c)。
新PG的进一步特征是参与支链氨基酸(BCAA)降解的酶的上调和蛋白酶体蛋白的下调(补充图5f,g)。最重要的是,与剪接体相关的蛋白质在新-PG中最明显地上调(图5b,补充图5h,i)。因此,将这个组别命名为ASB-CLL(Altered Spliceosome, low BcR signaling proteins CLL)。
补充图5剪接因子突变(如SF3B1突变)在CLL10中反复出现;然而,SF3B1的突变在ASB-CLL中既没有富集也没有耗尽。SF3B1蛋白水平在SF3B1突变和野生型CLL病例之间没有差异,但在ASB-CLL中明显高于其他亚组(补充图6b,c)。可以确认在SF3B1突变的癌症中BRD9的错误拼接(补充图6d)和下调(补充图6e),但在ASB-CLL中既没有检测到BRD9的错误拼接也没有检测到BRD9的下调(补充图6f,g)。对于12名ASB-CLL患者中的10名进一步进行了肿瘤和匹配的正常对照组的全外显子组测序,以探索在这个亚组中是否能发现任何额外的剪接体蛋白体细胞突变。除了一个SF3B1突变患者的DDX5突变外,无法检测到任何其他剪接因子的突变(补充图6h)。这些结果共同表明,在ASB-CLL中检测到的剪接体蛋白丰度的增加是独立于剪接体的突变的。
补充图6为了进一步确定ASB-CLL中剪接体的上调是否有任何功能上的影响,分析了该组患者的mRNA和肽水平的替代剪接。从一个无偏见的方法开始,使用转录组数据和rMATS36对所有患者的所有可能的替代剪接事件进行注释。在每个类别中(跳过的外显子、3′和5′替代剪接位点的使用、保留的内含子、相互排斥的外显子),从所有患者中显示出最高变异性的1000个替代剪接事件中计算出每个患者的平均剪接百分比(PSI)值(补充图6i)。ASB-CLL和所有其他亚组之间的比较显示,ASB-CLL的外显子使用情况不同,跳过的外显子较少,而3′和5′替代剪接点的使用较多(图5d,补充图6i)。此外,观察到平均剪接体蛋白丰度与上述平均PSI值之间存在统计学上的显著相关性。总的来说,检测到427个外显子跳转事件,与所有其他蛋白组相比,ASB-CLL的替代剪接模式明显不同。这些外显子跳转事件在ASB-CLL中的发生率明显高于偶然性的预期(图5e)。没有观察到不同的外显子跳转事件对编码区或非翻译区的偏爱。在肽水平上也检测到了ASB-CLL明显不同的外显子使用(图5f)。
图5 ASB-CLL新蛋白质组的特征分析05 -在独立队列中对ASB-CLL的验证
作者在其他CLL患者队列中证实了ASB-CLL PG的存在和预后相关性(图6a)。通过对165名患者进行基于数据独立采集(DIA)的质谱分析来验证与ASB-CLL相关的蛋白质组学特征。还在一个独立的、先前发表的队列中证实了蛋白质组学特征。进一步在169名CLL患者的独立队列中验证了ASB-CLL的剪接特征。
为了在DIA蛋白质组学中稳健地检测ASB-CLL,作者在HiRIEF数据集中的所有BcR和剪接体蛋白上训练了一个k-top评分对(k-TSP)分类器。将该分类器应用于Validation1_DIA队列,发现了28名ASB-CLL患者(10名未治疗,15名预治疗,3名未知),这个ASB-CLL的比例与训练数据集相似。正如预期的那样,BcR蛋白在ASB-CLL中被下调,而剪接体蛋白被上调(图6b,c)。此外,ASB-CLL的特点是BCAA蛋白的上调和蛋白体蛋白的下调,这与发现队列中观察到的结果一致(补充图8a,b)。最重要的是,ASB-CLL患者的总生存期明显较差(图6d),这与TP53畸变(del(17)(p13)或TP53突变)和未突变的IGHV基因相关的风险无关(图6e,f)。ASB-CLL的不良总生存率在从治疗无效患者获得的样本亚组中得到证实(补充图8c)。
将k-TSP分类器应用于Eagle及其同事独立发表的队列(Validation2_Eagle),包括9名U-CLL和9名M-CLL患者,确定了一个由5名患者组成的亚组,其基因和蛋白质组学特征与ASB-CLL相似(补充图8d-g)。此外,将ktsp分类器应用于一个蛋白质组学数据集,该数据集包括与本研究重叠的患者(91名CLL患者中的30名),但该数据集是在不同的实验室使用DIA蛋白质组学27独立生成的。91个CLL样本中共有9个(10%)被归类为ASB-CLL,可以确认以ASB-CLL蛋白质组谱为特征的患者结果不佳。
补充图8此外,使用了一个独立的患者队列(Validation3_RNA),对其进行了配对端RNA测序,以验证检测到的ASB-CLL的剪接特征。使用先前确定的427个明显不同的外显子跳转事件作为预测因素,对发现队列样本进行了偏最小二乘判别分析(PLS-DA)分类器的训练(图6g)。
积估计为0.97。然后,PLS-DA模型被应用于Validation3_RNA队列,将其169名患者中的每一个都归类为属于或不属于ASB-CLL。正如在训练队列中观察到的那样,被确定为属于ASB-CLL的患者检测到的外显子跳过事件的平均PSI值明显大于其他患者组(图6h)。验证3_RNA队列中的ASB-CLL样本表现出与发现队列中相同的剪接模式,也表现出明显较短的TTNT(图6i)和总生存期(图6j)。
图6 对ASB-CLL组的验证06 -原发细胞影响12三体的蛋白质组和临床结果的效果
将MOFA中的潜伏因子1和2绘制成图,结果分离出四个不同的组(Tris12M-PG、Tris12U-PG、M-PG、U-PG),它们与IGHV突变状态和12三体症密切相关(图7a,b)。最初,作者旨在了解这种相互作用对蛋白质组的功能后果,随后利用这些组与12三体综合征和IGHV突变状态的关联,在三个独立的数据集中研究这些亚组的生存差异(图7a)。值得注意的是,很少有病例落入Tris12M-PG和Tris12U-PG,尽管他们的12三体检测是阴性的,克隆大小超过了20%。有趣的是,其中一个病例有一个亚克隆性的12三体病变。如果仅根据基因特征来确定亚组,这些错误分类可能会带来偏差。
为了了解IGHV状态和12三体对蛋白质组的整体影响,对发现队列中的所有样本进行了相关网络分析,以确定CLL蛋白质组的最重要的生物模块(图7c)。这揭示了六个生物模块(N1-N6)在所有被筛选的CLL患者样本中都受到影响。接下来,对这些模块进行了富集分析,量化了每个模块在每个PG中的重要性(图7c,补充图9a)。所有的趋势都被来自Validation1_DIA队列的DIA蛋白质组学数据集(n = 165 CLL患者,补充图9b)的相对蛋白丰度的网络所证实。正如预期的那样,两个12三体亚群Tris12M-PG和Tris12U-PG显示了位于12号染色体上的蛋白质和参与BcR信号传导的蛋白质的水平升高(N2)。进一步评估了这种上调对体外药物反应的功能后果,发现Tris12M-PG和Tris12U-PG对BcR通路抑制剂(如伊布替尼、伊德拉利西)的敏感度明显高于体外联合培养模型中的瘤细胞和CLL细胞(补充图9c)。
尽管有这些相似之处,但根据IGHV突变背景,Tris12M-PG和Tris12U-PG之间也有生物学上的差异。含有参与趋化因子和细胞因子信号的蛋白模块(N6),在Tris12U-PG中明显更丰富。通过调整无12三体的U-CLL/M-CLL病例的差异,作者注意到在12三体的情况下,U-CLL病例表现出MAPK信号蛋白的水平增加,而M-CLL病例的细胞粘附分子水平增加(补充图9d)。还可以确定M-CLL和U-CLL之间的BcR信号通路的差异,具体到12三体的背景;U-CLL,12三体病例表现为该通路的细胞内成分(如NFKB1,MAPK13)进一步增加,而M-CLL,12三体表现为膜结合成分(如CD21,CD79A/B,补充图9e)增加。这在磷酸化水平上也很明显,在Tris12M-PG中,膜结合和膜近端蛋白表现出磷酸化增加(如CD19,LYN),而在Tris12U-PG中,细胞内成分(如MAP2K2,NFATC2,AKT2)的磷酸化升高(补充图9f)。M-CLL中12三体的出现与N5中蛋白的低丰度有关,这些蛋白已被证明与细胞生存有关(补充图9a)。相反,在U-CLL中12三体的发生并没有改变该模块的蛋白水平。
作者进一步寻求研究12三体对M-CLL和U-CLL自然病程的影响,独立于任何治疗背景,使用首次治疗时间(TTFT)作为端点。12号三体综合征没有改变U-CLL患者的TTFT,但在M-CLL患者中明显减少了TTFT(验证1_DIA;图7d)。这可以在620名未经治疗的CLL患者群中得到证实(验证4_未经治疗;图7e)。
有趣的是,在463名统一接受伊布替尼治疗的CLL患者队列中,并没有观察到Tris12M-PG患者的更快进展(Validation5_ibrutinib;图7f)。对于接受伊布替尼作为一线治疗以及复发治疗的患者来说,情况也是如此(补充图9g,h)。然而,12三体患者在体内38和体外对伊鲁替尼的反应更好(补充图9c)。因此,假设12三体患者对BcR抑制剂更好的反应率平衡了在未经治疗的Tris12M-PG患者中观察到的更快进展。这些蛋白质基因组学的发现体现了基因改变对蛋白质组的影响如何因其发生的细胞背景而不同,以及这种互动如何转化为不同的临床结果。
图7 12号三体对CLL蛋白质组和临床结果影响的起源细胞的相关 补充图9四、结论
作者对CLL的综合多组学分析提供了遗传改变、转录组和蛋白质组之间相互作用的全面概述,以及对药物反应和临床结果的功能后果。对本研究数据集的详细分析提高了对CLL生物学异质性的理解,并提供了基于分子表型的亚型,这将改善病人分层和个性化治疗。