NSCLC关键功能模块和基因
今天跟大家分享的是2019年十二月份发表在Cancers(IF:6.162)杂志上的一篇文章
Molecular Signature of Subtypes of Non-Small-Cell Lung Cancer by Large-Scale Transcriptional Profiling: Identification of Key Modules and Genes by Weighted Gene Co-Expression Network Analysis (WGCNA)
大规模转录谱构建非小细胞肺癌的分子特征:通过加权基因共表达网络分析(WGCNA)识别关键模块和基因
背景:
非小细胞肺癌(NSCLC)诊断率是肺癌中的80%,尽管近几年新发展了一些新疗法,但NSCLC生存依旧不乐观。NSCLC主要的亚型有鳞状细胞癌(SCC)、肺腺癌(ADC)和大细胞肺癌(LCC)。只基于组织病理学的观察不能良好的预测患者的潜在应答。肺癌的不同组织学类型在分子特征上存在差异,如突变特征、DNA拷贝数、基因表达等。由于生物学过程是建立在多种细胞成分相互作用的基础上的,基因网络分析可以为研究癌症的发病机制提供宝贵的信息。加权相关网络分析(WGCNA)使用了数据约简方法和无监督分类方法,实现了用十几个基因组合的基因集(或模块)对数千个基因的反应进行解释。
本工作通过差异表达分析,检测ADC和SCC组织与正常组织的差异表达基因(DEGs)。此外,应用WGCNA来识别与临床特征高度相关的基因模块,并在选定的模块中识别关键基因。
结果:
一、样本信息
本工作使用2015-2016年的研究项目MOBIT,涉及114例NSCLC患者,肿瘤样本是进行了手术切除的,患者的详细信息(表1)。
表1.样本信息
二、非小细胞肺癌不同亚型的基因表达谱
1.对114个肿瘤和114个正常样本通过edgeR包和DESeq2包进行差异表达分析,控制FDR≤0.05,|log2FC|≥1,用log2FC和FDR值绘制火山图展示每个基因的显著性的分布情况(图1A)。SCC样本中识别到7720个差异表达基因,其中3233个基因上调,4487个基因下调;ADC样本中识别到5856个差异表达基因,其中2452个基因上调,3404个基因下调(图1B,C)。SCC和ADC的差异基因有4757(53.9%)重叠,4062(46.1%)特异。
图1.ADC和SCC中差异表达基因
2.图2展示差异表达基因的top 20。SCC 和 ADC中共同上调的基因是MAGEA9、KRT20、HOXD11、CST4、MAGEA1、MAGEA10、MAGEA4、FGF19和CALM5,这些基因与细胞外基质和增殖,促进肿瘤发生,凋亡过程相关。肺组织中多达4个top上调的基因都是来自MAGE-A家族的同源基因。top 20中剩余的ADC相关的差异基因也在SCC中上调,不过显著性不高。CSBF、PAGE2、CALM3、DSG3、CTAG2和FAM83C只在SCC中上调。
SCC 和 ADC中共同上调的基因是SFTPC、CLDN18、CHIAP2、SLC6A4、CD300LG、RS1、AGER和MYOC,这些基因主要参与分化、细胞死亡、细胞周期进展、免疫应答调控、迁移和肺腺癌形成等过程。SCC和 ADC中下调最显著的基因是SFTPC,它编码表面活性蛋白c,这是一种疏水蛋白,具有减轻肺组织表面张力的能力。ADC中的其他top下调基因在SCC中也有下调情况,不过显著性不高。
图2.ADC和SCC中差异表达基因top20
三、GO和IPA通路富集分析
1.使用Cytoscape中的插件BiNGO工具对差异表达基因进行GO的生物学通路(BP)富集分析,GO 的BP条目中包含的基因有97 (52.2%)个是 SCC和ADC重叠的差异表达基因,富集分析显示DEGs参与细胞周期调控、增殖、代谢过程和DNA修复(图3A)。在SCC中,基因富集通路主要有周围角质化、表皮发展、角化和表皮细胞分化(图3B)。ADC中,差异基因主要富集在体液免疫应答、免疫应答分子介质的产生、免疫应答的激活和免疫应答的正向调节(图3C)。
2. Metascape是一个基于40多个独立知识库提供全面的基因注释方法。在SCC中,Metascape工具识别的差异基因富集最显著的通路包括角化、表皮细胞分化、趋化性、基质相关、核心基质、发育生长和ECM调节因子(图3D);在ADC中,显著的富集通路有体液免疫、免疫反应激活、白细胞迁移、趋化性、细胞粘附、基质相关、有丝分裂核分裂(图3E)。
图3.差异表达基因进行GO富集分析和Metascape注释分析
3. IPA软件的Ingenuity core analysis分别在SCC和ADC中识别了70和54个改变的典型通路(FDR≤0.01)。图4A展示了每个亚型差异表达基因涉及的top 10条通路,42 (51.2%)的通路是两个亚型都显著富集的,其中有类二十烷酸信号、无粒细胞和粒细胞粘附和血球渗出、动脉粥样硬化信号和轴突引导信号等。
SCC差异表达基因的IPA 分析显示最显著富集的通路有基底细胞癌信号转导、p38 MAPK信号通路、p53信号通路、去甲肾上腺素降解等(图4B)。以上结果说明上皮鳞状细胞的转化和过度增殖在SCC的发病过程中起着重要的作用。
ADC差异表达基因的IPA 分析显示最显著富集的通路有MIF调节先天免疫、eNOS信号通路、磷脂酶和Wnt/β-连环蛋白形成。大多数ADC激活的生物学过程和通路与肿瘤免疫反应相关(图4C)。
图4.差异表达基因进行IPA通路富集分析
四、上游转录调控因子
使用IPA中的上游调控因子分析(tream Transcription Regulators)工具,通过限制FDR≤0.01和激活分数z-score > 2 或 <–2,识别影响差异基因表达的上游调控因子,在激活或抑制的调控因子中,SCC和ADC之间只有90个(36.8%)重叠(图5A)。图5B所示,大多数调节子是转录调节因子,生长因子,激酶和酶等,它们与细胞生长、细胞周期、侵袭和凋亡有关。具有最高激活Z值的ERBB2基因,是编码受体酪氨酸激酶的表皮生长因子(EGF)受体家族的成员,其参与人类恶性肿瘤的发展。Z值最低的CDKN1A基因编码细胞周期蛋白依赖性激酶抑制剂1,该抑制剂在细胞周期停滞中起主要作用,响应DNA损伤。
图5.差异表达基因的上游调控因子分析
五、构建加权基因共表达网络
1.通过WGCNA包的cutreeDynamic功能对ADC和SCC样本的表达值进行层次聚类(图6A,B),绘制基因层次聚类树图。聚类情况显示,生成的树不能识别强烈的离群值,并且基本的样本信息也不建议纳入非典型患者。适当的软阈值验证的研究朝着无标度拓扑性收敛,分别指向ADC的10和SCC的7(图6C)。
图6.ADC和SCC样本的聚类分析
2.通过使用动态树切割算法(Dynamic Tree Cut algorithm)获得第一组模块集合,然后将相关的模块(r>0.75)合并到一起,从而获得最终模块集。最终在ADC和SCC中分别识别到32和15个共表达模块(图7A,B)。
图7.ADC和SCC样本的模块中层次聚类
3.用TCGA数据库的LUAC (肺腺癌)和 LUSC (肺鳞状细胞癌)数据集来验证共表达网络。未发现异常值,能够验证当前软阈值,因此将使用相同的参数构建网络。基因交集矩阵显示了TCGA或MOBIT数据集中的模块之间的关联。TCGA中得到的一些模块与MOBIT中相应的基因模块有很强的关联性,从而验证了MOBIT识别的模块的正确性(图8)。
图8.TCGA数据聚类和MOBIT聚类的交叠情况
六、模块与临床特征关联
对每个模块,使用WGCNA 包的 moduleEigengenes计算模块的Eigengene(能够代表该模块的第一个主成分),并且使用Pearson’s 相关计算了每个Eigengene与临床特征(如肿瘤宽度、肿瘤长度、SUVmax(最大标准摄取值)、BMI(体重指数)、吸烟指数、无复发生存率、无病生存率、T和吸烟情况)的相关性,发现在ADC和SCC中分别有4个模块和2个模块与一个或多于一个临床特征相关。
图9A中,红色和浅蓝色是ADC中与肿瘤大小强相关的模块,深橙色是ADC中与无复发生存(RFS)高度负相关的模块,蓝色和蓝绿色分别是 ADC和SCC中与SUVmax高度相关的模块。这些模块将用来进行后续分析。
图9.SCC和ADC中Eigengene与临床特征的相关性
七、重要模块进行功能富集分析
对ADC中的4个和SCC中的2个与临床特征相关的模块进行富集分析。
GO生物学通路富集(图10A)。在ADC中,红色和浅蓝色模块基因主要富集于免疫应答及其调控,而与RFS呈强负相关的深橙色模块的基因主要富集于RNA的生物发生和加工,有丝分裂细胞周期和DNA构象变化过程分别富集于ADC和SCC的黄色和蓝绿色模块。在SCC中蓝色模块基因主要富集于细胞粘附、通讯和信号转导过程。
IPA分析发现,在ADC的红色和淡蓝色模块中,通路主要与免疫细胞激活的检查点有关。深橙色模块中的通路与翻译过程相关,ADC中黄色模块和SCC中蓝绿色模块富集的通路参与细胞周期调控过程,涉及到细胞周期蛋白和激酶。在SCC中,蓝色模块包括通过G蛋白偶联受体和轴突引导分子与信号通路(图10B)。
图10.重要模块进行GO和IPA富集分析
八、在所选模块中识别重要基因
对ADC中的4个和SCC中的2个与临床特征相关的模块中基因使用Cytoscape构建蛋白质互作(PPI)网络,用cytoHubba插件中的Clique Centrality (MCC)等11种评分方法识别top 10的关键(hub)基因(图11)。
ADC中红色模块top 10的hub基因,具有高度连接性的是CTLA4,它是免疫球蛋白超家族的成员,编码一个负调控T细胞功能的跨膜蛋白。在浅蓝色模块中,10个hub 基因中的大多数基因编码免疫调节因子,如MZB1能促进IgM的组装和分泌,是细胞质中参与调节凋亡的相关成分。ADC黄色模块top 10位的hub基因中BUB1编码一种丝氨酸/苏氨酸蛋白激酶,这是一种有丝分裂的检查点蛋白。
SCC中蓝绿色模块top 10的hub基因中,网络中连通度最高的CCNB2基因编码cyclin B2蛋白,可以在细胞周期中作为G2-M过渡的调节因子发挥作用。在蓝色模块的top 10的hub基因中,编码G蛋白亚基gamma 11的枢纽基因GNG11在跨膜信号中起着重要作用。
图11.模块中top 10 hub基因的PPI互作网络