这篇3+分核心基因筛选,点个在看,我们复现这篇文章!
今天和大家分享的是2019年11月发表在Frontiers in Genetics(IF:3.517)上的一篇文章,“Identifying Key Genes and Functionally Enriched Pathways in Sjögren’s Syndrome by Weighted Gene Co-Expression Network Analysis”,作者使用GEO数据库中的干燥综合征(SS)数据集进行DEGs筛选,对DEGs进行WGCNA分析鉴定出与SS相关的共表达模块以及核心基因,并且进行了GO富集分析与GSEA分析。
Identifying Key Genes and Functionally Enriched Pathways in Sjögren’s Syndrome by Weighted Gene Co-Expression Network Analysis
通过加权基因共表达网络分析鉴定干燥综合征的核心基因与功能通路富集
https://www.bilibili.com/video/BV1se411W777
一、研究背景
干燥综合征(SS)是一个主要累及外分泌腺体的慢性炎症性自身免疫病,以口干和眼睛干燥为主要症状,并可伴有多器官系统性表现。目前SS的病因与确切分子机制尚不明确,一些miRNA可以作为SS的诊断标志物,作者希望通过较大样本的WGCNA分析识别SS相关的基因网络特征,确定具有诊断意义的核心基因。
二、分析流程
三、结果解读
1.筛选SS组和正常对照组的差异表达基因
GSE51092中的mRNA表达谱数据集包含190例SS患者和32例健康对照组外周血样本,使用limma包进行差异表达基因分析,以SAM筛选|log2FC| ≥1和FDR <0.05的DEGs,结果选出1,483个DEGs,表1展示了差异表达最明显的20个上调基因和10个下调基因。
表1:SS和对照样本中的30个DEGs
2.WGCNA分析样本中基因共表达网络
确定合适的soft-thresholding power(软阀值)建立临近矩阵以使基因分布符合无标度网络特征,图A中对1到20的软阀值进行了网络拓扑分析,左图纵坐标为无标度拓扑拟合指数,以0.9作为阈值,右图为平均连接度,结果确定8作为软阀值。
对基因进行聚类分析,对聚类树以动态剪切法最终得到17个共表达模块(图B),其中蓝绿色模块中包含的基因最多,其次是黑色、蓝色和黄色。
图C中拓扑重叠热图显示上述模块之间的高度独立性。
图1:WGCNA分析样本中基因共表达网络
3.模块-特征相关性分析和hub基因鉴定
模块-特征相关性热图(图A)和各模块的基因显著性值(图B)显示多个模块与SS相关,其中蓝绿色模块与SS相关性最高。图C显示蓝绿色模块中 module membership(MM)与基因显著性之间的相关性,以基因显著性>0.4且MM较高(加权相关指数>0.9)为标准,将前19个基因确定为hub基因,图D中展示了这19个基因的拓扑重叠热图,显示出基因之间的高正相关。
图2:模块-特征相关性分析和hub基因鉴定
4.核心共表达模块的功能注释
作者对蓝绿色模块中的基因进行了GO富集分析,结果显示基因主要富集在对病毒的反应、免疫反应、防御反应、对细胞因子刺激的反应、炎症反应等生物过程(图A)。Circos图对基因与GO terms的关系进行交叉验证,显示其中大量与免疫反应相关的基因也同时富集在其他生物过程中,表明这些基因可能与协调SS发展的多种生物途径有关。
图3:GO富集分析
5.hub基因的验证与功效评估
作者对WGCNA鉴定的hub基因中没有SS相关研究的5个基因进行了表达差异的验证与功效评估:EIF2AK2 (A),GBP1 (B),PARP12 (C),TDRD7 (D),PARP14 (E)。图4为原数据集,图5图6中作者使用GSE84844(30例SS患者与30例对照组外周血单核细胞的表达谱数据)和GSE66795(131例SS患者与30例健康对照组外周血表达谱数据)两数据集进行验证。结果显示以上5个基因表达量在SS患者中均显著上调(P < 0.001)。
图4:GSE51092数据集中5个hub基因的表达差异分析
图5:GSE84844数据集中5个hub基因的表达差异分析
图6:GSE66795数据集中5个hub基因的表达差异分析
图7中作者以ROC曲线评估了5个基因的诊断价值,结果显示在3个数据集中5个基因的AUC值均大于0.7,表现出较高的诊断价值。
图7:3个数据集中5个hub基因的ROC曲线
6.hub基因的单基因GSEA分析
作者分别以5个hub基因的表达量中值将样本分为两组进行GSEA分析,以MSigDB中的h.all.v6.2.sytmbols.gmt作为参考基因集。图8展示了5个hub基因分组中差异表达基因的富集结果气泡图,作者从中选出与免疫相关的基因集进行进一步分析。
结果显示EIF2AK2(图9A)和TDRD7(图9E)高表达组中“inflammatory response”、 “interferon α response”和 “interferon γ response三个基因集显著富集。GBP1高表达组中“Regulation of the immune response”、“Regulation of the defense response” 和 “response to cytokine”三个基因集显著富集(图9B)。PARP12(图9C)和PARP14(图9D)高表达组中“inflammatory response” 和 “interferon α response”两个基因集显著富集。
图8:GSEA富集基因集完整列表气泡图
图9:免疫相关基因集GSEA富集结果
小结
这篇文章中作者主要是对SS数据集进行WGCNA分析构建基因网络,鉴定出与SS相关的模块和核心基因后对其进行了功能通路富集和诊断价值评估。作者首先筛选出数据集样本的DEGs,然后使用WGCNA将基因分为不同的模块,并进行了模块-特征相关性分析,在与SS相关性最高的蓝绿色模块中鉴定出核心基因。进一步对蓝绿色模块中的基因进行GO富集分析,并使用其他两个数据集验证了核心基因的差异表达和诊断价值,最后对核心基因进行了单基因的GSEA分析。功能富集结果均显示在病毒反应、防御反应、对细胞因子刺激以及干扰素的反应等多个免疫相关通路中显著富集。