他山之石数据整理

不同方法识别关键模块

2020-03-16  本文已影响0人  概普生信

今天跟大家分享的是2019年12月份发表在Aging (Albany NY). (IF: 5.515)杂志的一篇文章,这是一篇关于乳腺癌风险模块的研究。

Identification of breast cancer risk modules via an integrated strategy

整合的方法识别乳腺癌的风险模块

 

乳腺癌是全世界女性中最常见的恶性肿瘤之一。通过挖掘疾病风险模块有助于理解乳腺癌的分子机制。本文基于多目标优化模型,提出了一种综合的疾病风险模块识别的方法。从与乳腺癌相关的互作网络中识别三个乳腺癌风险模块。通过文献验证,这些风险模块中的基因证实在乳腺癌中起关键作用。且风险模块富集了乳腺癌相关的通路或功能。该整合的方法可以扩展到其他的复杂疾病,用来识别风险模块并揭示其发病机理。流程图如图1所示。

 图1流程图

材料方法

数据获取

作者从GSE15852下载了43个乳腺癌样本和43个配对的正常样本。并从CGC,TGDB,ONGene,NCG下载了乳腺癌相关基因,两个以上数据库收集的基因认为是乳腺癌相关基因(seedgene)。接着从HPRD,STRING和KEGG获取基因互作网络,得到5202个基因之间的13136条边的互作网络。

乳腺癌风险模块识别

利用SAM方法识别差异表达基因,筛选log2(FC)>1和FDR<0.05的基因,并对正常和肿瘤计算V值,,其中S2表示方差,随机扰动筛选显著的基因(FDR<0.05)认为是方差变异基因(DEVGs).

再利用cytoscape的MClique插件进行clique识别,对模块基因小于4个的模块进行合并,若simpsonindex大于0.8,则进行模块合并。

候选模块的挖掘

利用多目标优化的方法进行模块挖掘,若基因表达与乳腺癌相关的种子基因表达相似,那么该基因更倾向于疾病相关基因。基因之间的相似性采用了信息熵和皮尔森相关系数进行计算,公式如下。

乳腺癌模块的识别

文章通过整合了三种不同的模块打分方法,1)马尔科夫随机(Markov random field,MRF),功能一致性打分(consistency score of functions),pearson相关性的差异(difference score for PCC)。基于MRF计算模块的得分W,公式如下。基于一致性打分计算模块的得分F,公式如下其中基于计算的PCC差异得分。对于三个打分均显著的模块认为是乳腺癌风险模块。

乳腺癌风险模块的验证

文章从三个不同的角度进行风险模块的验证:1)文献验证,2)功能富集分析验证,3)分类准确性验证。以及其他两套独立数据验证(GSE70947和TCGA)验证。

结果

1. 初始模块识别

首先筛选差异表达基因(DEG)和方差变化显著的基因(DEVG)。利用cytoscape插件MClique进行模块挖掘,留下包含差异基因的模块。并对模块之间相似度高的进行模块整合。识别得到6个模块(表1)。

 表1. 初始模块

从CGC、TGDB、ONGene和NCG数据库获取乳腺癌相关基因,认为在两个以上数据库出现的基因是种子基因。利用多目标优化的方法对模块进行计算(图2)。模块1、2、3和模块5包含非种子基因作后续分析。

 图2.候选模块

2. 乳腺癌风险模块

利用马尔科夫链(MKF)、一致性得分(F)和皮尔森相关系数差异得分(PCC),对筛选的模块进行显著性评估,随机筛选相关数目基因进行随机扰动,得到模块的显著性p值(图3)。其中包含16个种子基因和44个非种子基因(图4)。

图3. 随机扰动P值

 图4. 乳腺癌风险模块

3. 文献验证

通过文献检索,发现44个非种子基因中有33个是与乳腺癌有关的,证实挖掘的乳腺癌模块是与乳腺癌是有一定关系的(表2)。

 表2.非种子基因的文献验证

4. 功能富集分析

利用Enrichr包对模块基因进行GO和KEGG富集分析,发现乳腺癌风险模块富集在乳腺癌相关的功能中(图5)。且发现三个风险模块均富集在breast cancer pathway中(图6),表明风险模块在疾病中发挥重要的作用。

图5. 乳腺癌风险模块的通路和功能

 图6. 乳腺癌通路

5. 性能评估

利用乳腺癌风险模块作为分类特征训练SVM分类器,对正常和乳腺癌进行区分。作者采用留一法交叉证实(LOOCV)来评估分类准确性,在GSE15852数据集中的分类准确性为85%。进一步评估只利用种子基因和风险模块所有基因作为特征进行分类器训练。发现利用种子基因作为特征的准确性为83%(图7)。且在独立数据集中表明利用风险模块所有基因作为特征分类准确性得到提高(表3)。

 图7. GSE15852数据集的ROC曲线

表3. 风险模块和种子基因作为特征在独立数据集的分类准确性

为了评估筛选稳定性,随机选取90%的样本进行模块挖掘,发现模块中90%的基因仍被识别到(图8)。然而改变不同的模块挖掘方法,例如MCODE和GraphWeb,他们之间挖掘模块中基因的数目分类准确性相差显著(图9)。且比较了单独使用MI或PCC以及联合PCC与MI作为特征的分类准确性,发现联合使用MI和PCC打分筛选基因更少且分类准确性更高(图10)。

 图8. 所有样本和随机样本的模块中基因数

图9.模块挖掘方法比较

图10. 不同打分标准筛选的基因数和AUC

上一篇 下一篇

猜你喜欢

热点阅读