基因表达谱预测早期非小细胞肺癌脑转移
背景介绍
大背景(疾病,肿瘤)
肺癌是全世界最常见的癌症死亡原因,非小细胞肺癌(NSCLC)约占病例的80%。在非小细胞肺癌中,腺癌是最常见的亚型。在脑转移瘤(BM)患者中,最常见的疾病来源是肺部。腺癌组织学和发病年龄小与脑扩散的高风险相关。
小背景(分子,机制/未知,已知)
-
带有驱动突变的转移性非小细胞肺癌(NSCLC)患者通常会发展成脑转移瘤(BM)。例如ALK重排阳性容易发生脑转移。与crizotinib相比(ALK酪氨酸激酶抑制剂),如果早期能够使用具有更强脑屏障穿透力的alectinib,将会减少脑转移的几率。
-
特定器官的转移过程涉及多个复杂的分子过程。识别与早期脑转移瘤(BM)相关的基因或分子信号将提供对相关机制的进一步认识,并指出潜在的治疗靶点。已有研究提示,有几个基因或信号通路与肺癌转移到大脑的风险有关。例如CDH2,KIFC1和FALZ1 mRNA表达;例如PI3K/AKT,JAK/STAT和 CHK1通路等。
❝ 驱动突变(Driver mutations)是致癌的主体,乘客突变(Passenger Mutations )可能无用,可能起到了辅助作用。驱动突变常常位于驱动基因;乘客突变常常位于乘客基因;癌症驱动突变不一定是错义突变,但基本是是错义的,不仅仅一个突变可能是驱动突变,大范围的变异也可能是驱动突变,像拷贝数变异; 不是所有的错义突变都能导致癌症,是那些能够造成驱动突变的突变会有更大可能导致癌症
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。❞
小小背景(分子概念进一步介绍/本研究目的):
研究表明,NSCLC患者脑转移与特异性单核苷酸多态性存在关联,例如PIK3CA、PTEN、AKT1、AKT2和FRAP1的表达,也与TWIST2和SPOKE1的调节、转移相关肺腺癌转录本1(MALAT1)的表达、Keap1-Nrf2-ARE 的突变有关。本研究的目的在于发现首次切除的NSCLC患者与早期脑转移风险增加相关的基因的表达。
其中Keap1-Nrf2-ARE可以分为两部分,一部分在细胞质,一部分在细胞核。## 未激活:通常情况下Keap1与Nrf2在细胞质中结合(我们可以把二者理解为两个蛋白组件),这时是处于未激活状态,如果一直未激活,Nrf2会被泛素化(泛素化是降解的一种修饰方式,类似于打标签,告诉机体这个东西可以作废处理了)进而被降解(Nrf2默默无闻就走完了一生)## 激活:如果受到某种刺激,Keap1-Nrf2的结合就不稳定,Nrf2被释放出来(开始了新的使命),被转移到细胞核,并与ARE结合,激活下游基因的转录,进而翻译出一系列相关蛋白,发挥生理功能。
全文思路论证图
结果解读
Table1
作者首先对研究对象的临床特征进行了阐述:样本来自91例非小细胞肺癌患者,包括脑转移患者(n=32)和对照组(n=59)。「分期:脑转移组(BM组)和对照组的分期有显著性差异,对照组更多的是早期;分级:BM组的肿瘤分级明显更高,大多数BM患者都处于低分化或未分化的分级。」
Figure 1
整体的转录图谱可以揭示临床上相关的信息,并可以使我们更快地将对照组与BM组区分开来。首先 对样本的整体RNA表达数据进行降维可视化 ,用不同的颜色对降维后的样本进行注释:(A)发展为脑转移,其中黑色/红色分别表示对照/BM患者;(B)组织学分类,其中白色/浅灰色分别表示腺癌/鳞癌。图1A展示基于RNA表达的数据不能将BM患者与非BM患者区分开,但是图1B基于组织学的染色可以将腺癌和鳞癌肿瘤区分开。因此,整体基因表达谱主要代表原发肿瘤的组织亚型。
t-SNE : t-分布领域嵌入算法,读作“Tee-Snee”, # 它只在用于已标记数据时才真正有意义,可以明确显示出输入的聚类状况。 # 主要想法(→→思想): 将高维分布点的距离,用条件概率来表示相似性,同时低维分布的点也这样表示。 只要二者的条件概率非常接近(用相对熵来训练,所以需要label), 那就说明高维分布的点已经映射到低维分布上了。
Figure 2
接下来,作者将重点放在识别一组能特定区分BM组和对照组的基因上,应用包含101个基因和临床参数的多变量正则化Logistic回归模型,了解到底哪些基因是BM的危险因素,应用在基于临床和转录模型的性能评估。作者应用系数矩阵,观察到在91个模型中至少有一个模型中,仅32个基因的系数不为零。图2A显示了不同质量度量的框图,本研究模型用蓝色星号标记,随机模型用黑色的圆圈表示。
作者的下一个目标是基因集最小化,便于在未来应用于临床诊断。通过系数矩阵,在80%的患者中,只有22个基因具有非零系数。图2B显示了与只有临床参数的模型相比,包含这22个基因的模型优越性。
logistic回归又称logistic回归分析,主要在流行病学中应用较多, 比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。 例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。 这里的因变量就是--是否胃癌,即“是”或“否”,为两分类变量; 自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。 自变量既可以是连续的,也可以是离散的。 通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
Figure 3
作者接下来的重点在于验证基因签名特异性在BM预测中的应用,而不是对其他部位的转移有特异性。基于这22个基因的表达,比较了无转移患者、在其他部位转移患者和BM患者之间发生脑转移的概率。「前两组比较差异无统计学意义,后两组比较差异有显著的区别。这表明了该基因签名对BM的发生发展有特异性。」
基因签名具有物种特性,且物种越近,签名越相似。 同时签名有局部相似性的,物种在某方面也具相似性。 即签名可在一定程度上表征物种的分类和进化关系。
Figure 4
更深入地了解BM的信号通路,确定与22个基因签名高度相关的基因最丰富的典型通路。 「基于22个基因的表达数据,能够较好地区分BM组与对照组。图4B显示通过QIAGEN研究相关的前0.5%基因的富集情况,」 氧化磷酸化途径(OXPHOS)(呼吸链复合物I)在脑转移的原发性NSCLC肿瘤中表达显著上调。
PCA主成分分析技术,又称主分量分析技术, 旨在利用降维的思想,把多指标转化为少数几个综合指标。
结论
利用在原发性肿瘤中发现的基因表达特征,结合临床参数来预测BM的发生发展。从基因签名中,作者发现氧化磷酸化途径与BM的发生发展密切相关以及氧化磷酸化途径在癌症发生发展中的潜在重要性。「这一结论与Warburg假说(癌细胞主要使用糖解作用取代有氧循环的现象)存在出入,氧化磷酸化途径在脑转移过程中的作用仍需进行进一步的验证研究和机制评估。」
参考文献
[1] Kamer I, Steuerman Y, Daniel-Meshulam I, et al. Predicting brain metastasis in early stage non-small cell lung cancer patients by gene expression profiling[J]. Translational Lung Cancer Research,2020,9(3):682-692.