肿瘤文章思路

多组学数据的联合分析,揭示戒烟对癌症患者生存的影响

2020-10-14  本文已影响0人  生信学霸

标题:The benefitsofsmoking cessation on survivalincancer patients by integrative analysisofmulti-omics data

发表期刊:Mol Oncol.

发表日期:2020Jun24

影响因子:6.574DOI:10.1002/1878-0261.12755

⬇️ 研究背景 ⬇️

吸烟是癌症发生的风险因素之一,并且增加了各种癌症的发病率,如膀胱癌、头部癌、肺癌和胰腺癌。

香烟中含有多种化学致癌物质,这些物质能够产生突变signature,增加体细胞突变负荷,香烟除了引发频繁的基因突变外,吸烟还能破坏了免疫系统的稳态,这可能导致肿瘤的发生。大量的研究表明,长期吸烟不仅对健康人群产生不健康的影响,而且对癌症患者预后产生不利的因素。

然后,很少有人研究癌症吸烟者的吸烟状态的变化与癌症患者死亡率之间的关系。

⬇️ 材料和方法 ⬇️

1.数据来源

----

来源数据库:TCGA数据库

癌症种类:膀胱癌(BLCA)、宫颈癌(CESC)、食管癌(ESCA)、头颈鳞癌(HNSC)、肺腺癌(LUAD)、肺鳞癌(LUSC)和胰腺癌(PAAD),每种癌症患者的临床信息下表。

数据类型:RNA-seq表达谱数据、miRNAseq表达谱数据、体细胞突变数据(SNV)、拷贝数变异数据(CNV)、DNA甲基化数据(450K)和患者临床随访信息。

本研究所使用的癌症种类患者临床信息分布情况

2. 吸烟状态与患者OS的关系

----

作者将当前正在吸烟和以前吸烟超过100支的当前不在吸烟的患者纳入到研究当中,使用多因素cox回归分析分析了吸烟状态,年龄,性别,stage,status与HPV状态与患者OS的关系。

3.差异表达分析

----

使用R软件包limma筛选吸烟者与戒烟者样本中的差异mRNAs(DEGs)、差异lncRNAs和差异miRNAs,阈值:p<0.05。然后使用R包clusterProfiler对差异基因进行GO功能富集分析和KEGG通路富集分析。

4.体细胞突变分析

----

      作者首先挑选出体细胞突变频率大于19的样本,比较这些样本中当前吸烟者与不吸烟者样本中体细胞突变的分布情况,并使用R软件包GenVisR进行展示。然后使用Mann-Whitney-U检验分析基因表达情况与体细胞突变的相关性。

5.拷贝数变异分析

----

     作者将拷贝数(CNV)大于0.2定义为CNV增加,小于-0.2定义为CNV减少,并用chi-test比较当前吸烟者与不吸烟者的CNV,使用R软件包Rciorcos进行分析。然后用Kruskal-Wallis检验分析基因表达情况与CNV的相关性。

6.甲基化分析

----

使用R软件包limma筛选吸烟者与戒烟者样本中的差异甲基化位点,然后使用用Pearson相关系数分析基因表达情况与DNA甲基化水平的关系。最后,将SNV、CNV、DNA甲基化都存在相关性的DEGs定义为关键的DEGs。

7.ceRNA网络的构建

----

使用差异lncRNAs、差异miRNAs和关键DEGs构建ceRNA网络,使用Mircode数据库预测了LncRNA-miR之间的关系,使用Cytoscape可视化网络

8.免疫细胞评分

----

使用三种不同的算法计算免疫细胞评分,包括TIMER、六种免疫细胞类型和CIBERSORT。最后使用Mann-Whitney U检验比较当前吸烟者和戒烟者的免疫评分情况。

9.构建与吸烟状态相关signature

----

单因素Cox回归分析>R程序包glmnet进行Lasso回归>Kaplan-Meier曲线法分析>R程序包survivalROC绘制AUC曲线>R程序包rms构建列线图>风险模型与临床因素的单因素与多因素cox回归分析

⬇️ 主要结果 ⬇️

1.在癌症患者中,戒烟能够显著的改变患者的生存状况

表1展示了戒烟状态、年龄等其他因素与患者OS的关系,年龄模型显示戒烟与CESC、HNSC、LUSC和PAAD的OS显著相关。在多因素模型显示尽管在大多数癌症中戒烟与患者的OS没有显著性,但现在不吸烟者比现在吸烟者有更好的预后。在LUSC中,与目前正在吸烟的人相比,戒烟的人的多变量HR=0.67 95%CI(0.48-0.94),这表明戒烟可作为独立因素改变LUSC患者的预后。

表1. 戒烟,年龄等其他因素和癌症患者预后相关性

2.差异基因分析

---------

对现在吸烟者和戒烟者mRNA、lncRNA和miRNA的差异表达。共筛选出2899个DEGs(p<0.05),其中2102个基因在现在正在吸烟样本中表达量升高,797个基因在现在正在吸烟样本中表达量降低(图1A)。GO和KEGG分析表明,DEGs主要富集于DNA和RNA相关代谢途径中,GO功能富集表明,这些基因参与了DNA复制、RNA剪接等功能。此外,还筛选48个差异表达的miRNAs(20个下调和28个上调miRNAs,图1B)和1326个差异表达的lncRNAs(1207个下调和119个上调的miRNAs,图1C)。

图1.mRNA、miRNA、lncRNA差异分析和mRNA、miRNA和lncRNA互作网络

3.吸烟患者与戒烟患者体细胞突变分析

---------

作者分析了当前吸烟者和戒烟者之间的体细胞突变。结果显示:虽然总突变量没有发现显著差异,但是,有71个基因在吸烟样本和戒烟样本中存在显著差异(图2A),突变的基因中有十个DEGs。进一步作者分析了这些DEGs转录过程是否受到体细胞突变的影响,发现GPATCH8(p=0.037)和ZFC3H1(p=0.034)的表达与它们的体细胞突变显著相关(图2B)。

4.吸烟患者与戒烟患者拷贝数变异分析

---------

作者发现有781个基因发现了拷贝数变异,拷贝数的变异的基因主要分布在19、1和17号染色体上(图2C)。此外,作者分析了拷贝数变化是否影响94 DEGs的转录,结果显示有73 DEGs的表达与其拷贝数变化密切相关。

5.吸烟患者与戒烟患者甲基化差异分析

---------

接下来作者分析目前吸烟者和戒烟者样本中DNA甲基化位点的差异,结果显示与吸烟者相比戒烟者样本中有964个基因甲基化位点强弱不一样(图2D),接下来作者分析了差异基因表达水平与差异甲基化位点的相关性,结果显示有10个基因的表达水平与其甲基化水平显著相关,包括HOXB2(Cor=-0.728,p<0.001)和PTHLH(Cor=-0.565,p<0.001,图2E)。通过上面的分析,最终得到85个关键基因可作为吸烟者的驱动基因,受不同遗传和表观遗传调控的影响。

图2.体细胞突变、CNV和甲基化位点与基因表达的关系

6.构建ceRNAs网络

---------

接下来,作者利用差异表达的lncRNAs、miRNAs和关键DEGs构建了ceRNA网络。首先作者利用Mircode数据库,对139个lncRNA-miRNA进行预测,包括76个lncRNA和8个miRNA,并以8个miRNAs的靶基因预测了3667个miRNA与 mRNA互作。最后基于lncRNA-miRNA和miRNA的连接,构建了lncRNA-miRNA-DEGs复合网络(69个lncRNAs、5个miRNA和13个DEGs)。

7.LUSC免疫细胞评分分析

---------

作者使用三种不同的算法来计算LUSC中免疫细胞的含量。结果显示CD8+T细胞(TIMER)、滤泡辅助性T细胞(CIBERSORT)、γ-δT细胞(CIBERSORT)、M0巨噬细胞(CIBERSORT)、中央记忆CD4+T细胞(XCELL)和中央记忆CD8+T细胞(XCELL)等免疫细胞在吸烟者与戒烟者中存在显著差异。

8.构建和验证与吸烟相关的signature

---------

作者将使用单因素cox分析和lasso分析,分析了吸烟状态、SNV突变、体细胞变异、免疫细胞评分与患者生存状态的关系,并构建一个评分公式:smoking signature= 0.5410*(smoking status) + 0.3278*ZFC3H1|snv +0.2153* GPATCH8|snv + 0.3625* NOL8|cnv + -0.5947* RPL10A|cnv + -0.3870* follicular helper T cell (CIBERSORT) + 0.5414* M0 acrophage (CIBERSORT) +-0.1420* central memory CD8+ T cell (XCELL).并根据上传风险模型公式对每一个患者进行风险打分,结果表明:戒烟者的吸烟signature比现在的吸烟者低(p<0.001,图3A),然后作者通过KM曲线,证实高风险的患者预后较差(p<0.001,图3B)。与吸烟状态相比,风险模型2年、3年和5年的AUC为0.65、0.67和0.70(图3C)这显示风险模型具有较好的预测能力。此外,单变量和多变量Cox回归分析显示吸烟特征可能作为独立预后指标(p<0.001,图3D-E)。此外,作者在数据集结合吸烟signature和临床信息构建预后列线图(图3F)列线图和校准曲线,表明风险模型具有良好的预测性能(图3G)。

图3.构建吸烟状态风险模型

为了证实吸烟signature具有良好的鲁棒性,作者在其他癌症中进行了验证。结果限制在单因素年龄模型中,吸烟signature与BLCA、CESC、HNSC、LUAD、LUSC和PAAD的OS显著相关。在多因素模型中,在BLCA(HR=1.70,95%CI=1.01-2.88),CESC(HR=5.69,95%CI=1.37-23.69),HNSC(HR=1.97,95%CI=1.41-2.76),LUAD(HR=1.73,95%CI=1.16-2.57),LUSC(HR=1.70,95%CI=1.19-2.43)和PAAD(HR=4.28,HR=1.70,95%CI=1.19-2.43),95%CI =1.47-12.47,表2)。

图4.风险模型与其他临床变量的相关性

好了,以上是关于这篇文献的思考,希望对你们有一些帮助。

上一篇下一篇

猜你喜欢

热点阅读