NK/T细胞淋巴瘤致癌网络构建和hub基因筛选
今天跟大家分享的是三月份发表在frontiers in Oncology(IF:4.137)上的一篇文章
Oncogenic Network and Hub Genes for Natural Killer/T-Cell Lymphoma Utilizing WGCNA
利用WGCNA分析NK/T细胞淋巴瘤的致癌网络和Hub基因
NK/T细胞淋巴瘤(NKTCL)是起源于NK/T细胞的淋巴系统恶性肿瘤,属于非霍奇金淋巴瘤的一种亚型,鼻腔是最常见的原发部位,具有侵袭性且预后较差。这篇文章主要是用SRA的数据(SRP049695)对NKTCL的基本分子特征进行了研究。文章关键结果是用WGCNA结合两套GEO数据验证得到了两个hub基因(LMO3和GRB14),可能是诊断和治疗NKTCL的潜在癌基因和生物标志物。
SRA原始数据处理流程
SRA数据(SRP049695)是包括3个正常NK细胞样本和15个NKTCL样本的RNA-Seq原始数据。文章中用TrimGalore过滤低质量的原始读数:(1)去除引物;(2)去除末端低质量的序列;(3)去除<35bp的序列。用HISAT2组装(hg19)。用Cufflinks计算mRNA和lncRNA的FPKM。
结果
1.差异表达基因的GO功能和KEGG通路的富集分析
文章使用Cuffdiff筛选正常NK细胞和NKTCL样本之间的差异表达基因(DEG)(阈值:p <0.05;log 2FC> 1或log 2FC < -1;q <0.05)。总共6680个mRNA在NKTCL中显示出差异表达,包括5664个上调的和1016个下调的。
通过R包Cluster Profiler对DEG进行了GO(BP)和KEGG的富集分析。GO的结果显示上调的DEGs显著富集在胞外结构组织,循环系统过程,血液循环,细胞外基质(ECM)组织等功能(图1B),而下调的DEGs则显著富集在T细胞活化,淋巴细胞分化,造血调节,细胞粘附,髓样细胞分化等功能(图1C)。 KEGG结果显示,上调的DEGs富集在核糖体,ECM-受体相互作用和细胞粘附分子(CAMs)等通路(图1D),而下调的DEGs富集到T细胞受体信号,趋化因子信号,和FoxO信号等通路(图1E)。
图1.转录组概况和差异基因功能
2.NK/T细胞淋巴瘤的GSEA分析
文章还将SRP049695的所有表达数据集进行了基因集富集分析(GSEA),肿瘤样本在补体系统,ECM受体相互作用和局灶性黏附通路中富集(图2A)。对照样本在T细胞受体,NK细胞介导的细胞毒性和脂肪细胞因子信号通路中丰富(图2B)。
图2.GSEA结果
3.PPI网
文章用STRING得到了DEGs的相互作用蛋白和基因并构建了PPI网络(图3A)。用MCODE计算基因的k-core和挖掘核心模块。发现40个最高的k-core基因组成两个重要的网络,一个是G蛋白偶联受体信号通路,另一个是ECM受体信号通路(图3B),这可能暗示了NKTCL发病的潜在机制。
图3.DEGs 的PPI网络
4.WGCNA
为了阐明NKTCL中的关键模块和基因,文章用R包WGCNA分析了NKTCL的高度相关的基因和共表达网络。首先排除了低质量的两个样本(图4A),β的幂自动设置为14以确保无标度网络(图4B)。另外模块基因的最小数量设置为30,层次聚类树状图用不同的颜色概括了基因模块,通过聚类树状图鉴定出18个基因模块。最后分析了基因模块之间的相互作用,并使用相应的分层聚类树状图和模块生成基因网络的TOM图展示(图4D)。
图4.WGCNA结果
5.识别NK/T细胞淋巴瘤的Hub基因
为了从WGCNA生成的巨大的基因网络中找到hub 基因,文章设置边的权重> 0.6来缩小网络,结果得到了包括325个节点和6,900个边的网络,其中图5A显示了两个关键的子网。通过分析基因节点的度和k-core发现一些可能是构成网络核心的mRNA和LncRNA,例如LMO3,PEG3,GRB14,ASB9和lnc-FRG2-13,lnc-F11-2,lnc-GALNT9-4,LINC01206。以k-core>60为阈值得到了57个核心基因并在火山图中标注了前10个(图5B),另外作者还绘制了最大的FC值和最显著的P值的两个基因LMO3和PEG3的共表达基因网络。
图5.识别Hub基因
6.Hub基因的验证
为了验证从WGCNA筛选出的可能的hub基因,文章用GSE69406数据验证上文的k-core前10的基因(小编:前文中的10个hub包含一个LncRNA,这里验证的是9个mRNA),即LMO3,PEG3,ASB9,GRB14,REEP1,SLC30A3,LY6K,TMEM59L和LDHAL6B。发现在NKTCL中LMO3,PEG3,GRB14和LDHAL6B被显著上调,而ASB9等基因在NKTCL与对照组之间则没有显著变化(图6A)。另外为了揭示这些基因的表达与预后之间的关系,文章用GSE90597数据集绘制了Kaplan–Meier生存曲线。发现,LMO3(p = 0.044)和GRB14(p = 0.027)的过表达与较短的OS显著相关。
图6.GEO数据验证
总之,文章用了一套SRA数据分析了NKTCL的差异基因及其功能,并利用互作网络分析得到了一些核心基因,为NKTCL诊断和治疗提供了潜在的生物标志物。
在小编看来这篇文章思路清晰且对NKTCL的研究有重要意义。美中不足的是文章书写上出现若干小失误,希望对作者和读者们有所帮助。感谢阅读!