开发和验证21转录本特征分类器有助于癌肿患者治疗策略(IF9+)
Gene-expression profiles of pretreatment biopsies predict complete response of rectal cancer patients to preoperative chemoradiotherapy
治疗前活检的基因表达谱预测直肠癌患者对术前化放疗的完全反应
发表期刊:Br J Cancer
发表日期:2022 Sep
影响因子:9.075
DOI: 10.1038/s41416-022-01842-2
一、背景
结直肠癌是美国第三大最常见的癌症,其中约三分之一位于直肠。目前直肠癌(UICC II/III)的治疗包括新辅助放化疗(CRT),然后是标准化的根治手术,包括全直肠系膜切除术(TME)。
术前放化疗的反应是非常异质的,范围从没有肿瘤细胞存活的病理完全应答(pCR)到治疗期间几乎没有肿瘤消退甚至发生肿瘤进展,高达三分之一的 CRT 治疗患者达到病理完全缓解(pCR),这些患者可以免于手术及其相关的发病率和死亡率,并被分配到“观察和等待”策略。肿瘤明显消退的患者具有良好的肿瘤学结果,5年总生存概率超过90%。重要的是,即使原发肿瘤完全消退后,残留的淋巴结转移也表明预后不佳。如Yoo等人所述,分子标记物可以增强治疗前反应预测模型的发展,改善对 "观察和等待 "策略患者的选择。
*肿瘤消退分级以百分比报告(TRG以%为单位)以获得更准确的反应谱。
*病理完全应答(pCR)被定义为原发性肿瘤和淋巴结中没有活的肿瘤细胞(TRG = 100%,TRG 4,ypT0 pN0)。
二、材料与方法
1.数据来源
1)从236名局部晚期直肠癌(cUICC II/III)患者中选择175名患者满足RNA质量、肿瘤细胞含量、完整临床注释和阵列质量的包涵要求,其中14/175的患者因没有TRG而作为第一个独立的验证数据集。
2)第二个独立的验证数据集:从GEO数据库中获得了另外38名局部晚期直肠癌患者的临床和基因表达数据
3)第三个独立的验证数据集:一项临床试验,名为TransValid A:来自6个机构的25名患者被纳入;应用与前两个样本集相同的质量标准,24名患者可被纳入最终分析
4)从READ-TCGA中检索了468名结肠癌和直肠癌患者的癌症生存和基因表达数据
5)Canto等人(GSE123390)的28名患者的表达数据
临床试验参与者的联合图 临床试验治疗概念的示意图2.实验流程
1) 治疗前肿瘤活检、RNA分离和基因表达芯片分析:GSE87211
2) 统计学方法:双样本t-、Mann-Whitney U-和Fisher精确检验;生存分析等
3) 分类器的评估:分类的接收器操作特征曲线(ROC)的曲线下面积(AUC);当假阳性率为零时达到的最大灵敏度(真阳性率)(即没有病人被误判为pCR时捕获的最大真pCR率)
4) 特征选择、交叉验证和支持向量机(SVM)分类器训练
分类器开发管道5) 评估以前发表的预测CRT反应的特征
6) 在三个独立的直肠癌数据集中对SVM分类器进行验证
7) 在21个基因的基础上建立第二个不依赖归一化的分数分类器
8) IPA分析:组成分类器的21个转录本被上传到IPA软件,进行路径和网络分析
9) 测试分类器对直肠癌患者的预测价值
三、实验结果
01 - 预测病理完全应答(pCR)的基因表达特征的鉴定
对于测试和训练以及独立验证集来说,应答与年龄、性别、肿瘤分期和在CRT中加入奥沙利铂的情况都没有显著相关性。根据共识分子亚群(CMS),应答者和非应答者之间也没有明显的分布差异。
由于本研究的目的是在不错误分类不完全应答者(假阳性率= 0)的情况下可靠地识别病理完全应答(pCR),作者进行了特征选择,目的是使分类器的性能最大化。选择了32个阳性(pCR,TRG=100%)和32个阴性(反应差,TRG<45%)病例进行特征选择和生成分类器,这64个病例被随机分为训练集和测试集。在训练集中确定了pCR患者和不完全应答者之间的差异表达基因。采用爬坡特征选择,逐步增加基因/特征,当应用于测试集时,提高了所产生的分类器的灵敏度。将64个样本分成两组,进行差异基因表达分析,并生成一个应用于测试集时具有最大灵敏度的分类器,这个过程重复了500次。在500次重复过程中,持续选择具有最大灵敏度的21个转录物的特征,被选择用来生成最终的分类器。对32个阳性病例和32个阴性病例进行四倍交叉验证程序,结果是灵敏度为0.4,AUC为0.75(图1a)。基于这64个样本,对所有161个样本都采用了SVM方法。将分类器应用于整个数据集,得到了0.31的灵敏度和0.81的AUC(图1b),表明即使考虑到TRG的全部范围(10-100%),SVM分类器也能正确识别三分之一以上的完全应答者而不出错。图1c显示了精确度和召回率之间的权衡。
图1 21个转录本的特征能有力地识别完全应答者02 - 21个转录本的分类器在独立数据集中稳健地识别了超过1/3的pCR患者
为了测试本研究SVM分类器是否能在独立的数据集中识别pCR患者,作者在没有任何进一步训练的情况下将其应用于另外三个患者群。第一组包括14名在CAO/ARO/AIO-94或04研究中接受治疗的患者。分类器识别了四名患者中的两名pCR(灵敏度=0.5,AUC=0.7),而没有一名患者被错误地分类为pCR(图2a,b)。在Millino等人最近发表的38名患者(8名pCR)的数据集中,分类器正确识别了4名患者为pCR(灵敏度=0.5,AUC=0.76),同样没有将任何患者错误地分类为pCR(图2c, d)。最后,该分类器被应用于25名前瞻性收集的患者,可以正确识别5名患者中的2名pCR(灵敏度=0.4,AUC=0.81),同样没有将任何患者错误地分类为pCR(图2e,f)。
为了进一步证明这21个基因的临床相关性,作者利用这21个基因开发了第二个简单的、基于分数的分类器(图2g)。这个简单的分类器不需要归一化,但可以很好地识别相当比例的pCR患者,同时没有将任何患者错误地分类为pCR(图2h)。它在独立的数据集中识别了超过30%的pCR样本,而没有将任何病人错误地归类为pCR(图2i,j)。
图2 SVM分类器和评分分类器在三个独立的患者队列中有力地预测了病理完全反应03 - 21-转录本评分的表达与结直肠癌患者的治疗反应和生存率有关
pCR与生存率的提高和更有利的肿瘤学结果有关。因此,作者假设本研究分类器对疾病的预后也是有用的。首先在161名直肠癌患者身上使用了基于21种转录物表达的分类器得分,观察到与肿瘤回归有显著相关性(图3a)。然后将分类器应用于TCGA数据库中的468名结肠癌和直肠癌患者,以获得分类分数,发现高分类分数与较长的总生存期(图3b)和较长的无病生存期(图3c)显著相关。
图3 基于21个转录物的表达的分类器得分与TRG相关,并与独立数据集的结果有关04 - Ingenuity路径分析(IPA)确定了辐射反应路径基因的富集情况
为了深入了解构成分类器的21个转录物的生物学机制,进行了IPA途径分析。参与DNA损伤控制途径的基因有明显的富集;"BRCA1在DNA损伤反应中的作用"途径、"DNA G2/M DNA损伤检查点调节"和 "ATM信号传导"在多重检验校正后有显著富集。
四、结论
基于161名患者的基因表达谱,在三个独立的数据集(n = 76)中开发和验证了分类器,鉴定了超过1/3的pCR患者,同时从未错误分类非完全应答者。因此,分类器可以识别适合“观察和等待”的患者。