可变剪切分析又来了
生信人在近两年期间内由浅入深的分享了许多可变剪切相关的文章,最近小编浏览文献的时候,发现了这样的一篇文章,虽然整体分析的方式和可变剪切课程中大体相同,但是丰富了部分细节,仍值得进一步挖掘下~
Survival-associated alternative splicing signatures in non-small cell lung cancer
方法部分:
1.可变剪切(AS)事件的数据收集
从TCGA检索了LUAD和LUSC队列的RNA转录组图谱。从TCGA SpliceSeq获得AS事件的相关信息。并根据以下标准进行筛选:(1) NSCLC的明确组织学诊断;(2)有明确的相关临床信息,包括年龄,病理分期和TNM分期;(3)生存时间超过30天;(4)具有相应RNA-seq剪接变异数据的患者。
最终获得了491位LUAD患者和473位LUSC患者。
2.识别差异可变剪切(DEAS)事件。
LUAD和LUSC队列按性别分为两组,进行差异分析(adj.p<0.05)。 进行然后,生成维恩图以说明四组之间的差异。另外,构建了一个UpSet图来演示七种DEAS事件之间的相交集。
3.DEAS事件的生存,GO功能和KEGG途径富集分析
每组按中位PSI值分为两组。然后,进行单因素Cox回归以探讨生存因素,p <0.05。接下来,我们选择与OS相关的DEAS事件的相应亲本基因作为使用Metascape 进行GO和KEGG途径富集分析的候选基因。
4.预后模型构建
将生存相关的可变剪切事件作为LASSO分析的候选对象,并将结果进一步用于逐步Cox回归分析,依据每个预后模型计算风险评分,并根据中位风险评分将患者分为两组。用于 进行了K-M生存分析和动态时变ROC曲线以验证预后模型的预测准确性。
5.AS临床病理列线图(重点)
随后,将上述预后模型与上述临床病理信息一起用于单变量Cox分析,并将重要结果进一步用于开发列线图以估计患者的个体存活率。然后,我们绘制校准曲线并计算C指数,以验证和量化评分系统的辨别能力。
6.潜在的SF-AS监管网络的构建
从SpliceAid 2数据库中检索到总共67个人类SF。从TCGA数据库下载了SF的RNA测序数据,进行了差异分析,识别差异SF(adj.p <0.05)。随后,通过Pearson分析计算了DESFs的表达与生存相关的DEAS事件的PSI值之间的相关性。最后,根据通过Cytoscape构建了四个潜在的SF-AS监管网络。
7.实时定量PCR验证DEAS事件
进行实时定量PCR以验证选择的生存相关的DEAS事件。
结果部分:
1.NSCLC中AS事件整体概述
在LUAD组中,共检测到10366个基因的43948个AS事件,包括6618个基因的16793个ESs,3605个基因的8992个APs,3734个基因的8546个AT, 2522个基因中的3559个AAs,2173个基因中的3057个ADs,1866个基因中的2781个RIs和214个基因中的220个MEs。
在LUSC组中,共检测到10557个基因中的46020个AS事件,包括6810个基因中的18029个ES,3737个基因中的9301个AP,3748个基因中的8578个AT,2636个基因中的3752个AA,2278个基因中的3263个AD,2862个RI 1908个基因中有235个ME,227个基因中有235个ME(图2B)。ES是AS的主要组成部分,而ME是最不常见的类型。
2.NSCLC中鉴别差异表达的可变剪切(DEAS)事件
通过对AS事件的差异分析,在DEAS事件中AT发生的频率高于AP(图2B)。然后,生成了四个维恩图来分析这些组之间的异同(图2C-2E)。我们发现,在区分性别后,许多AS事件表现出显着差异,在LUAD中,女性组的DEAS事件比男性组更为常见,而LUSC中则观察到相反的趋势。UpSet图中说明了每个组中DEAS事件的分布。LUSC的男性组显示出更复杂的剪接,许多基因产生了4或5个DEAS事件,这可能通过复合作用影响肿瘤发生(图2F)。
3.NSCLC中与生存相关的AS事件和功能富集分析
在单变量Cox回归分析中确定与总体生存期(OS)相关的可变剪切事件,在LUAD组中,识别到男性中的286个生存相关的AS事件,女性中的582个生存相关的AS事件,而在LUSC组中,识别到男性中的912个生存相关的AS事件和女性LUSC组中的113个生存相关的AS事件。
同时通过功能和途径富集分析进一步评估所有相应基因,如图3所示。
4.非小细胞肺癌患者预后模型的构建
使用每个队列分析后,构建了四个复合模型,复合模型的Kaplan-Meier生存分析表明,在区分两组的好坏结果方面具有相当大的优势(p<0.0001,图4)。最终模型对患者存活,风险评分和剪接模式进行分类的能力如图5所示。此外,还生成了1至5年的接收器工作特征(ROC)曲线,并计算了曲线下的面积(AUC)。如图4所示,最终的复合模型显示出强大的预测能力,并且从1年到5年,每组的AUC均超过0.75。
5.AS临床病理列线图
为了扩展AS事件的应用,我们尝试建立列线图以将AS事件与临床治疗联系起来。最终,模型中包括的临床病理变量包括年龄,病理阶段,T阶段,N阶段,M阶段和最终的复合模型(图6A-6D)。我们将AS模型的风险评分分为四个级别,以确保列线图的实用性。此外,列线图的校准曲线在预测和实际预后之间显示出良好的一致性(图6E-6H)。
此外,在LUAD组中,男性的OS预测一致性指数(C-index)为0.777(95%置信区间(CI):0.748-0.806),女性为0.827(95%CI:0.796-0.858);在LUSC组中,男性为0.729(95%CI:0.704-0.754),女性为0.843(95%CI:0.813-0.873)。
总而言之,结果表明构造的列线图在临床实践中具有巨大的应用潜力。
6.潜在的差异表达SF监管网络建设
为了探索AS调节的上游机制,我们分析了来自TCGA数据库的SF的RNA测序数据。在男性LUAD,女性LUAD,男性LUSC和女性LUSC组中,分别有26、27、37和31个SF存在显着不同。随后,在DESF和DEAS事件之间进行了相关分析,结果如图7所示。对于DESF,外围的红色点表示上调(对数倍数变化(FC)> 1),而蓝色点表示下调(logFC <1)。对于DEAS事件,中心的红色圆点表示预后较差(HR>1),而蓝色圆点表示临床预后较好(HR <1)。
7.通过实时定量PCR验证组织中的DEAS事件
为了验证生物信息学分析的准确性,我们收集了成对的组织样本进行进一步验证,在LUAD中,包括男性的20对组织样本,女性的20对组织样本,以及在LUSC中,男性的10对组织样本,女性的10对组织样本。我们从每个AS模型中选择了四个DEAS事件进行进一步验证,最终生成了箱形图以说明qPCR结果(图8)。这四个DEAS事件的比率在肿瘤组织中显着上调,这表明这些DEAS事件的增加将影响肿瘤的产生。重要的是,这些发现为我们接下来将进行的更详细的功能测试提供了重要的指导。
通过上述的解读我们发现,这篇文章相较于之前的课程主要有两方面的改变,一是分析主体从常见的癌症与正常对照细化为了性别的对照,分析方向更巧妙;二是增加了方法5部分AS临床病理列线图相关的分析,尝试将AS事件与临床治疗联系起来,使文章的内容更加丰富。
不同的侧面,不同的研究,大家赶快学习起来呀~