推荐|识别肿瘤淋巴结转移相关的预后因子
今天跟大家分享的是二月份发表在Journal of Cancer(IF:3.182)杂志上的一篇关于结直肠癌淋巴结转移分组预后的文章,利用TCGA数据库识别分析预后相关mRNA虽然是老生常谈,但是研究方法是经典的,值得借鉴。
A Combined four-mRNA Signature Associated with Lymphatic Metastasis for Prognosis of Colorectal Cancer
与淋巴结转移的结直肠癌预后相关的四个mRNA组合标记
结直肠癌(CRC)是世界上最常见的恶性肿瘤之一,淋巴结转移(LNM)是CRC的一个常见转移方式。为了鉴定与LNM相关的生物标志物,从TCGA数据库中收集数据。通过比较癌症样本和正常结直肠组织之间以及CRC的LNM和非LNM(NLNM)之间的差异,用edgeR包寻找与LNM相关的基因。对交点处的基因进行单变量和多变量回归分析,建立与CRC独立预后相关的基因标记,然后通过Kaplan-Meier曲线和对数秩检验进行验证,使用ROC曲线确定四个mRNA标记生存率的预测。最后通过功能和通路富集分析探索了这些基因标记的潜在分子机制和特性。研究表明,与LNM相关的4个mRNA标记可以用作CRC独立预后的组合生物标志物。
一、方法与材料
1.1患者和mRNA表达数据处理
CRC mRNA的表达和相应的临床数据可从TCGA数据库下载。根据纳入标准:(a)完整的基因表达和生存信息(b)LNM的CRC患者筛查标准是患者的N期为I-IV,排除标准如下:(a)生存信息或基因表达不完全(b)临床病理参数尚无N期,最终获得了614个CRC组织和51个正常结直肠组织的mRNA表达谱进行进一步研究,614个组织包括264个LNM组织以及350个NLNM的组织(图1A)
图1.与LNM相关的DEG
1.2 CRC mRNA数据挖掘的差异表达
使用edgeR包筛选TCGA中614个CRC组织和51个正常结直肠组织的差异表达mRNA,将阈值设置为| logFC | > 1且调整后的p值<0.05,在相同条件下对LNM的264个CRC组织和NLNM的350个CRC组织进行差异mRNA挖掘。使用韦恩图寻找LNM的CRC组织和CRC组织中上调基因的交集。
1.3基于mRNA的独立预后指标的构建
将614名CRC患者随机分为两组(表1),对mRNA表达谱进行log2转换以进行统计分析,使用单变量Cox筛选影响患者OS的mRNA,然后进行多变量Cox回归分析以识别作为独立预后指标的mRNA。根据每个mRNA的表达水平和从多元Cox获得的回归系数进行风险评分。Exp代表每种mRNA的表达水平,β代表每种mRNA的回归系数。
表1.每组CRC患者的临床特征
1.4功能富集和统计分析
通过使用DAVID数据库对高风险评分患者中上调mRNA进行GO和KEGG通路富集分析。根据风险评分的中位数,将614例CRC患者分为高危组和低危组。使用Kaplan-Meier曲线和对数秩检验绘制生存曲线。ROC曲线的曲线下面积(AUC)用于确定预后基因标记的预测能力。使用单变量和多变量Cox分析来评估风险评分是否是其他临床变量(年龄,T,N,M,总分期,残留肿瘤和肿瘤状态)的独立因素。使用Pearson检验或Fisher精确检验来分析LNM与临床病理参数之间的相关性。所有统计分析均使用SPSS 16.0和GraphPad Prism7。
二、结果
2.1 CRC中差异表达基因(DEG)的交集
在614个CRC组织和51个正常结直肠组织中筛选差异表达基因,发现CRC组织中有8461个基因上调,在相同条件下对264个LNM的CRC组织和350个NLNM的CRC组织进行差异mRNA挖掘(图1B),从LNM的CRC组织上调基因中获得了329个基因,韦恩图显示相交处有100个基因(图1C)。
2.2识别与CRC预后相关的4个mRNA
使用单变量Cox回归分析来确定100个与预后相关的交叉基因,得到5个p值<0.05的基因(图2A)。然后进行多因素Cox回归分析,最终筛选出4个mRNA(EPHA8,KRT85,GABRA3和CLPSL1)作为预后标记模型(表2),其中EPHA8和CLPSL1显示正系数,表明它们是危险因素,其高表达伴随着较短生存期。KRT85和GABRA3是负系数,被认为是保护mRNA,其高表达表明患者的生存期更长(图2B)。基于上述多变量Cox回归分析结果,使用四个mRNA的公式建立预测OS的风险评分。根据预后风险评分的中位数,将整个TCGA集,测试集和验证集分为低风险和高风险组(图2C-E)。接下来分析高风险评分组和低风险评分组的患者的生存状况,结果表明高风险评分组的死亡率高于低风险评分组的死亡率(图2F-H)。热图结果显示,随着风险评分的增加,风险mRNA(EPHA8和CLPSL1)被上调,而保护mRNA(KRT85和GABRA3)的表达被下调(图2I-K)。
图2. CRC的四个mRNA标记的风险评分分析
表2. CRC中与OS显著相关的四个预后mRNA的详细信息
2.3四个mRNA标记可作为独立于临床特征的预后指标
首先研究了从低到高风险评分的患者中不同临床参数的分布(图3A)。接下来,将风险评分和临床病理参数用作解释变量,将OS率用作单变量和多变量Cox回归分析的因变量。单因素Cox回归分析表明,四个mRNA风险评分和上述常规临床病理因素可以有效地预测CRC患者的预后(图3B)。其中,残留肿瘤是预测CRC患者预后的最明显的临床和病理学参数,在多变量分析中,风险评分,年龄,T分期和肿瘤状态也显著不同,表明它们可以用作CRC患者的独立预后指标(图3C)。
图3. OS的单变量和多变量Cox回归分析
2.4 Kaplan-Meier曲线验证了用于生存预测的四个mRNA标记
Kaplan-Meier曲线显示高风险评分患者的预后较差(图4A),ROC曲线的AUC用于确定预后基因标记的预测能力(图4B)。在测试集(图4C)和验证集(图4D)中也证实,具有高风险评分的患者预后较差,结果表明四个mRNA标记可以有效地预测CRC患者的预后。先前对OS的单变量Cox回归分析表明,临床病理参数中的年龄,T期,N期,M期,总分期,残留肿瘤和肿瘤状态可以有效地预测CRC患者的生存率。使用Kaplan-Meier方法验证上述结论,结果表明,年龄在68岁以上的T3 + T4,N1 + N2,M1和III + IV期的患者中,残留肿瘤的患者预后较差,进一步证实了分析的准确性。
图4. TCGA数据中CRC患者的Kaplan-Meier生存分析
接下来使用分层分析进行进一步的数据挖掘,发现四个mRNA标记是女性CRC患者的预后标志物(图5A)。在分别对T期,N期和总分期进行分层后,基于四个mRNA标记的风险评分是T3 + T4,N1 + N2和III + IV期的独立预后指标,高风险评分的患者预后较差(图5B-D)。根据初始治疗后发生的新肿瘤事件,发现四个mRNA标记是没有新肿瘤事件的患者的预后标志物,高风险亚组存活的时间较短(图5E)。
图5. Kaplan-Meier曲线通过将患者的临床标记分为高和低风险评分来预测患者的生存
2.5鉴定四个mRNA的相关潜在功能
为了确定四个mRNA起作用的通路和生物学过程,根据中位风险评分将614名CRC患者分为低风险组和高风险组,并筛选差异基因,高危组112个基因被上调。对这112个基因进行了GO和KEGG富集分析。结果表明,这些基因在神经活性配体-受体相互作用,雌激素信号传导通路和类固醇激素生物合成通路中富集(图6A),结果表明GO的主要生物学过程是受体配体活性,内肽酶抑制剂活性和肽酶抑制剂活性(图6B)。
图6.功能富集分析