[文献阅读]ICDS:Identification of can
Identification of cancer dysfunctional subpathway by integrating DNA-methylation, copy number variation, and gene-expression data
文章主要内容:通过整合DNA甲基化、拷贝数变异和基因表达数据识别癌症功能失调子路径
要点:
- 1.文章同时考虑了甲基化、拷贝数、表达谱三种类型的数据源
- 2.文章考虑子通路
- 有研究显示癌症的发生和发展并不总是由整体的生物学通路的异常所导致,而是体现在多个强烈的局部的生物学功能和生物学过程混乱,这种混乱导致通路局部区域与癌症显著相关,我们将通路的局部区域定义为“子通路”。说白了就是把通路细化了,更加关注通路中的某些局部区域
- 3.文章把该方法与spia gsea进行了对比,我也将在我简书的后文章里面讲讲gsea以及spia的原理,以及R代码实现
背景意义部分咱就先略过:你可以上网下载文章自行查看
我就直接上流程图将文章方法部分:
-
A左:跑三种数据源的差异
- 表达谱数据:数据是常规表达谱,正常VS癌症,用t-test做差异,获得p [ICDS R包中也提供参数直接输出fdr]
- 甲基化数据:数据事先被弄成行是基因,列是样本,正常vs癌症,用t-test获得p
-
拷贝数数据:数据包含三个:一个是离散化的-2 -1 0 1 2矩阵,一个是扩增基因列表,一个缺失基因列表,把这=拷贝数的三个数据整合成一个行为基因列为样本的01矩阵[ICDS R包提供整合函数],先提取表达谱数据和拷贝数数据共有的样本,把每个拷贝数基因的01label作为类标签,针对表达谱数据做差异,依旧是t-test,获得p
拷贝数变异
-
A右:整合三种p值[有R包matep可以实现这个p整合过程],再计算每个基因的风险打分[p装换成z,z作为风险打分]
- p整合的方法可以参照文章里的其中一个章节Meta-analysis of Inter-species Liver Co-expression Networks Elucidates Traits Associated with Common Human Diseases,整
- p转换成zscore,z-score作为风险打分
关键信息:Usually, the statistic S followed a χ2 distribution with 2k degrees of freedom, and we then calculated the null hypothesis p-value of the statistic S. Finally, we converted the p-value to a z-score according to the inverse-normal cumulativedistribution function (CDF), and the z-score was taken as the RS of each gene in cancer
-
B:卡A右边基因的p值,获得种子节点,使用贪婪搜索算法搜索子通路,根据下方公式计算子通路活性打分[要求:新增节点进去,新得到的通路活性打分要比原打分大%5以上,否则停止搜索]
-
B:获得了一堆子通路,对子通路进行优化,把重复基因比例高的子通路合并起来[什么算高?文章卡的是雅卡尔系数的阈值:雅卡尔系数概念你可以自行查阅,后续我也会写一篇简书文简介一下]
-
C:优化后的子通路作为输入,用扰动方法,做1000或10000次扰动,获得子通路的显著性p值
文章将ICDS找到的显著子通路与gsea、spia、SubpathwayMiner方法找的通路做对比。论证出文章方法的可靠性。
扫描下方二维码关注生信客部落公众号:
生信客部落