与非肿瘤疾病7+的差距,就差这篇技巧贴!
基于公共数据的非肿瘤疾病研究,由于数据受限等种种原因,想发7+的文章相对来说还是比较困难的。肿瘤研究至少有TCGA等数据库支撑,就算想发10+也是有可能的。今天跟大家分享一篇非肿瘤领域的纯生信文章,一起来看看7+是如何做到的。
文章基于多套类风湿性关节炎公共数据,通过生物信息学方法鉴定了关键免疫细胞类型和基因,探索了类风湿性关节炎免疫分子机制,确定了四个疾病诊断标志物,以及参与疾病发生发展的重要基因-细胞轴,为类风湿性关节炎的诊断和免疫分子机制提供了新的视角。
文章八月份发表在Frontiersin Immunology(IF: 7.561)。
医学数据分析,优选思路,尽在生信人公众号
Identifying Immune CellInfiltration and Effective Diagnostic Biomarkers in Rheumatoid Arthritis byBioinformatics Analysis
在类风湿性关节炎中通过生物信息学分析识别免疫细胞浸润和有效诊断标志物
一、 背景
类风湿性关节炎 (RA) 是一种慢性全身性自身免疫性疾病,其特征是炎症细胞浸润,导致持续性滑膜炎和关节破坏。RA的发病机制尚不清楚。本研究旨在通过生物信息学分析探索RA的免疫分子机制。
二、 材料方法:
5套GEO芯片数据作为训练集,一套GEORNA-seq数据作为验证;CIBERSORT计算免疫细胞比例;Wilcoxon和LASSO识别显著差异细胞类型;两种方式识别差异表达基因;GO和KEGG进行功能分析;Cytoscape挖掘hub基因;ROC衡量诊断效能;Spearman评估基因与免疫细胞相关性。
三、 结果:
1.RA和正常滑膜组织免疫细胞浸润
首先将5套GEO数据合并去除批次效应,基于CIBERSORT计算22种免疫细胞比例。其中,Tfhcell与memoryactivated CD4+ T cell,M1 macrophage显著正相关,而M2 macrophage与naïve B cell显著负相关。通过两种方法,筛选得到RA与正常间显著差异的细胞类型,包括M1 macrophage,Tfh cell等10种细胞类型。
图1 图22.差异表达基因DEG识别
基于5套GEO训练数据,首先使用去除批次效应的合集计算DEG;其次,5套数据分别计算DEG,使用‘RobustRankAggreg’获取DEG。两种方式overlap得到202个差异表达基因。
图33.功能相关分析
基于202个DEG,进行GO和KEGG富集分析,发现DEG主要与免疫细胞相关的信号通路相关,例如趋化因子信号通路,原发性免疫缺陷,总体上来说,DEG与免疫细胞显著相关,这也就与文章前期分析的免疫细胞建立了很好的联系。
图44.识别与验证Hub基因
基于STRING数据库的蛋白互作数据,构建DEG衍生的PPI网络,作者利用10种方法在网络中挖掘hub基因,最终得到了包括CXCR4, CCL5, CD8A, CD247和GZMA在内的5个基因。此外,利用RNA-seq独立数据,对hub基因表达水平进行验证。
图5 图65.RA生物标志物诊断效能
鉴于RNA-seq独立数据样本较大,作者利用这套数据分析所识别到的hub基因诊断效能,定义AUC大于0.8的作为潜在的诊断标志物,发现CCL5, CXCR4和CD247三个基因具有较好诊断效能。此外,作者将hub基因进行组合,发现CCL5+CXCR4和GZMA+CD8A同样具有非常好的诊断效能,可以作为RA和早期RA的诊断标志物。
图76.RA中生物标志物与差异免疫细胞相关性
为了探索识别到的生物标志物与免疫细胞的调控机制,也为了和文章开头建立联系,作者计算了标志物与前文识别到的差异免疫细胞的spearman相关性。其中,CCL5与M1 macrophage显著正相关;CXCR4与memory activated CD4+T细胞显著正相关;GZMA与Tfh显著正相关。
图8总结:
总体上来看,文章虽然没有构建复杂的模型,但是对于已有的方法的使用非常灵活和频繁。第一点,关键免疫细胞的识别使用了两种方法,差异基因的识别同样使用了两种方法,hub基因的识别使用了十种方法,并且使用超过5套数据进行分析,这一些列方式无疑都增加了文章结果的可信度。第二点,针对目前常见的免疫细胞的分析,作者在文章开头进行刻画,文章中间DEG分析时将基因与免疫细胞联系,文末生物标志物刻画时构建了基因-细胞调控轴,整体上逻辑清晰,联系紧密,杜绝了常见的将免疫细胞分析硬凑在文章中的尴尬局面。
如果能够将文章的两个优点学到手,条件允许再加入适当的湿实验验证,相信文章水平最后肯定不会低。
医学数据分析,优选思路,尽在生信人公众号