SCI 文章思路推荐

IF:7+ 基于转录组水平上探究种植周炎和类风湿性关节炎的相似性

2022-05-19  本文已影响0人  桓峰基因

近几年除了癌症之外,测序成本的降低,一些常见病也陆续的在各大知名期刊发表,有很多基础医学的老师想发一些关于常见病的文章,苦于没思路,所以就给各位老师安排上,这期分享2021年11月发表在 Front in Immunology (IF:7.561)的一篇文章利用生信分析结合机器学习研究基于转录组水平上探究种植周炎和类风湿性关节炎的相似性和潜在关系!

摘    要

背景:本生物信息学研究旨在揭示种植体周围炎和类风湿关节炎(RA)之间潜在的串扰基因、相关通路和转录因子。

方法:数据集 GSE33774 (7个种植周炎样本和8个对照样本) 和 GSE106090 (6个植周炎样本和6对照样本)来自 NCBI 基因表达 Omnibus (GEO)。差异表达分析(p < 0.05 and |logFC (fold change)| ≥ 1))和功能富集分析(p < 0.05)进行。在此基础上,利用 Cytoscape 构建了一个蛋白质相互作用(PPI)网络。从DisGeNET数据库中提取RA相关基因,并对种植体周围炎相关基因与RA相关基因的重叠部分进行检测,以识别潜在的串扰基因。两组数据融合基因表达,采用递归特征消除(RFE)算法进行特征选择。在特征选择方面,构建了支持向量机(SVM)模型。这些特征基因在RA基因 GSE93272 中表达。最后,构建了一个包含串扰基因、相关通路和转录因子的网络。

结果:种植周炎数据集包含138个常见差异表达基因(DEGs),其中101个上调,37个下调。种植体周围炎的PPI互作包括1818个节点和2517个边缘。RFE方法选取了预测率最高的MERTK、CD14、MAPT、CCR1、C3AR1和FCGR2B 6个特征。在这些特征基因中,CD14和FCGR2B在种植体周围炎和RA中表达最多。最终激活的通路基因网络包含181个节点和360条边。核因子(NF) κ B信号通路和破骨细胞分化是可能的相关通路。

结论:本研究发现,FCGR2B和CD14是RA与种植体周围炎最相关的潜在串扰基因,提示RA与种植体周围炎具有相似性,可为今后的研究提供理论依据。

生信分析流程

我们说这篇文章背景不清、讨论不细、数据样本量还不大,这么平平无奇为何能发7分+?这就值得小编去探索一下,对比之后,小编猜测作者可能利用非常火热的机器学习算法SVM来增加了文章的分值。我们从文章中提取生信分析流程,看下文章中使用的数据集和生信分析方法,如下:

相关数据准备

数据集选择:GSE33774 (7个种植周炎样本和8个对照样本) 和 GSE106090 (6个植周炎样本和6对照样本)

    数据库:DisGeNET database(https://www.disgenet.org/home/)
转录因子相关数据库:TRRUST, TRANSFAC, cGRNB, ORTI, and HTRIdb databases.

生信分析方法

我们从文章的分析流程中提取所有的分析内容,整理出来就7个分析条目,构成了整个文章,生信分析+简单实验验证,发了7+,点击分析条码就会跳转到对应公众号的教程,跟着教程做,您也能发7+,如下:

1. 两种疾病分别利用患病与正常样本做差异分析(limma)

2. 对差异基因做GO富集KEGG富集分析

3. 构建蛋白互作网络(PPI)

4. 识别潜在的串扰基因(cross- talk genes)

5. 使用特征支持向量机 (SVM) 建模选择串扰基因

6. 支持向量机模型性能评估(ROC)

7. 串扰基因的通路分析(KEGG) (Cytoscape)

研究结果

1. 两种疾病分别利用患病与正常样本做差异分析(limma)

对比GSE33774和GSE106090的DEGs,发现共有138个DEGs,其中101个基因上调,37个基因下调。

2. 对差异基因做GO富集KEGG富集分析

显著富集138种常见的DEGs (A, B). DEGs,差异表达基因的生物学过程和途径。

3. 构建蛋白互作网络(PPI)

种植体周围炎的蛋白-蛋白相互作用网络。

4. 识别潜在的串扰基因(cross- talk genes)

有老师问我AI算法这块怎么才能提高,我也是自学,并没有老师知道,基于R语言学习机器学习的,强烈推荐这本书,写得非常全面细致,代码清晰,点击下面的链接即可购买!!

5. 使用特征支持向量机 (SVM) 建模选择串扰基因

特征选择。(A)合并数据中50个潜在的串扰基因的层次聚类。(B)对合并数据中采用RFE算法选择的6个特征基因进行分层聚类。(C)使用Boruta算法选择的串扰基因。(D) RFE算法筛选出6个特征基因。图中横坐标为基因数量的变量,纵坐标为在该变量下测量的整个数据集的精确值。结果表明,当最小变量为6时,得分较高,这意味着6个特征可以映射整个数据集。RFE,递归特征消除。

6. 支持向量机模型性能评估(ROC)

(A, B)种植周炎数据集(GSE33774和GSE106090)和(C) RA数据集(GSE93272)中6个特征基因的表达水平。种植体周围炎数据集(D, E) (GSE33774和GSE106090)和(F) RA数据集(GSE93272)中6个特征基因的预测。风湿性关节炎、类风湿性关节炎。

7. 串扰基因的通路分析(KEGG) (Cytoscape)

激活的通路-基因网络。

这篇文章还是蛮有意思的,7分的文章正好用了七个分析内容!

本文使用 文章同步助手 同步

上一篇下一篇

猜你喜欢

热点阅读