重复一篇3分左右纯生信文章(第一部分)
这一次要分享的文章题目是:Five key lncRNAs considered as prognostic targets for predicting pancreatic ductal adenocarcinoma
这是一篇2018年发表在journal of cellular biochemistry的文章,该杂志的影响因子大约3分,该杂志属于大区中科院3区杂志。
第一部分(简介)
摘要
胰腺导管腺癌(PDAC)预后不良,5年生存率仅为7.7%。为了改善肿瘤患者的预后,迫切需要一种用于胰腺癌早期诊断的筛选生物标志物。长非编码RNA(lncRNA)表达作为潜在癌症预后生物标志物的概况在肿瘤发生和癌症转移的发展中起关键作用。然而,用于预测患有PDAC的患者的预后的lncRNA仍然需要更多研究。在目前的研究中,我们尝试在PDAC中识别潜在的lncRNA生物标志物及探索其预后价值。本文中从癌症基因组图谱(TCGA)下载182例PDAC患者的LncRNA表达谱和相应的临床信息。共鉴定出14470个lncRNA,而TCGA中共计175个PDAC患者具有临床变量。进行单变量和多变量Cox比例风险回归,进行lasso套索回归以筛选潜在的预后lncRNA。已经认识到五种lncRNA与OS显着相关。基于上述的结果我们挑选并构建了基于5个lncRNA (C9orf139,MIR600HG,RP5-965G21.4,RP11-436K8.1和CTC-327F10.4)的线性预后模型,并根据模型的预测分数将患者分为高风险组和低风险组。 这5个lncRNA均是PDAC患者OS的独立预后生物标志物,并且基于5个lncRNAs的预后模型预测5年生存率的ROC曲线的AUC为0.742。此外,还探索了MIR600HG,C9orf139和CTC-327F10.4的靶向基因,并进行了功能富集。这些结果表明,这种5个lncRNA可以作为预测PDAC患者生存的潜在预后生物标志物。
方法
2.1数据集
PDAC患者的mRNA表达和相应的临床信息来自TCGA(https://tcga-data.nci.nih.gov/tcga/),样本是在IlluminaHiSeq RNA-Seq平台上进行测序,包含178个PDAC组织和四个相邻的非肿瘤胰腺组织。 PDAC的mRNA表达谱数据和临床信息都是公开可用和开源的。因此,本研究不需要伦理委员会的批准。
2.2 lncRNA差异表达谱
首先,从TCGA数据库下载PDAC 基因表达谱的raw count(level3)数据,我们通过基于来自GENCODE数据库的注释文件将表达谱中的相关特征注释为lncRNA来获得lncRNA表达数据(http ://www.gencodegenes.org)。例如反义,lincRNA和sense_intronic)被定义是lncRNA。通过上述步骤,一共得到了14,470个lncRNA表达谱数据。接下来,使用edgeR包估算差异lncRNA。其中| log2fc| ≥1且P值小于0.05被认为是后续分析的差异表达基因(DEG)。
2.3生存分析和套索回归,ROC曲线
使用单变量Cox模型计算每个lncRNA的表达水平与患者的总体存活(OS)之间的关系。当P值小于0.05时,那些lncRNA在单变量Cox分析中被认为是统计学显著。接下来,采用多变量Cox分析来寻找可以作为患者存活的独立预后因素的lncRNA。进行后向逐步方法以进一步选择最佳模型。然后,通过Lasso回归筛选并确认所选择的lncRNA。基于表达水平乘法回归模型(β)与下式的线性组合建立基于lncRNA的预后指数(PI)。预后指数=(β * C9orf139表达水平)+(β * MIR600HG表达水平)+(β * RP5-965G21.4表达水平)+(β * RP-436K8.1表达水平)+(β * CTC-327F10.4表达水平)。
基于预后指数(PI)的中位值,将PDAC患者分为高风险组和低风险组。随后进行低风险或高风险的病例的Kaplan-Meier生存曲线分析。为了进一步验证5-lncRNA生物标志物的预测是否独立于其他临床变量,单变量和多变量Cox回归,进行了分层分析。通过比较基于风险评分的生存预测的敏感性和特异性,使用5年内的时间依赖性接受操作特征(ROC)曲线评估预后性能。所有报道的P值都是双侧的。所有分析均使用R / BioConductor(版本3.3.2)进行。
2.4WGCNA与目标预测的加权共表达网络构造
我们使用加权基因共表达网络分析(WGCNA)分析了整合的网络,其可以使得能够描述相关模式基因表达谱。 WGCNA R包用于评估五种lncRNA及其模块成员的重要性。我们使用成对Pearson相关性评估邻接矩阵中所有数据集主体之间的加权共表达关系。如标准无标度网络所述,自动计算和生成适当的软阈值。在该研究中,软阈值设定为β= 7(无标度R 2 = 0.85)。在确定加权相关性之后,通过Cytoscape 软件呈现网络。我们还通过mRNA和lncRNA网络预测了5个lncRNA的靶基因。
2.5功能富集分析
首先使用加权共表达网络(WGCNA)挑选lncRNA的靶基因。使用Cytoscape插件ClueGO和DAVID Bioinformatics Tool(https://david.nciferf.gov/)进行这些共表达蛋白编码基因的富集分析。靶基因的Go富集分析的P值设定为P<0.05,富集分数> 1。使用Cytoscape软件显示符合统计学标准的的富集结果。
2.6用GEO数据验证差异表达的lncRNA
为了验证来自TCGA数据库的差异表达的lncRNA,我们尝试从GEO数据库筛选PDCA的mRNA数据集。为了确定符合条件的研究,我们采用了以下搜索策略:“pancreatic ductal adenocarcinoma” or “PDCA” or “pancreatic cancers.”。还提取了lncRNA表达水平用于进一步分析。差异表达基因使用Limma包进行估算。
结果部分
3.1|PDAC中差异表达lncRNA
从TCGA数据库获得PDAC肿瘤组织(n = 178)中与邻近的非肿瘤组织(n = 4)lncRNA表达谱。识别出总共109个差异表达的lncRNA。 在这些差异表达的lncRNA中,三个lncRNA是高表达,而106个lncRNA是低表达。 高表达的lncRNAs差异倍数大于3,包括RP5-965G21.4和CTC-327F10.4, 低表达的lncRNA中有17个lncRNA表现出超过> 3倍的表达降低(图1)。
因此基于该文的方法学介绍,我准备将该文的实战部分分拆为四个小节。(1)数据集下载、提取lncRNA和差异lncRNA。(2)生存分析和套索回归,ROC曲线。(3)WGCNA分析。(4)功能富集分析和验证