9分的Deep Learning肝癌建模文献介绍+社区优秀文章汇
相信大家对深度学习(Deep Learning简称DL)这个名词并不陌生,听过很多,但是深究其义又不能很好的讲清楚。
深度学习的字面含义是指学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。在生物信息学中,深度学习的一个应用就是DL模型,该模型作为一个Classifier可以将样本分类,但是分类效果究竟如何呢?请看今天为大家带来的文章。
DOI :10.1158/1078-0432.CCR-17-0853
该杂志本年度影响因子为8.911
研究背景
将患者根据不同的生存预期分类能使患者得到更好的照料,但目前缺少通过整合多组学数据预测HCC患者生存状况的研究。作者提出了一个基于深度学习的HCC模型,该模型可以稳健地将患者分成6个生存亚群。并且作者对该模型进行优化尝试和性能对比,发现分类效果好于其他两种常见的分类方法。
数据来源
训练集:来自TCGA的360 例样本的RNA-seq 数据, miRNA-seq 数据, DNA甲基化数据以及临床信息;
验证集1:来自ICGC的230 例样本的 RNA-seq 数据 ;
验证集2:来自GSE14520的221 例具有生存信息的样本;
验证集3:来自GSE31384的166对HCC与正常组织的配对样本;
验证集4:来自Affymetrix HG-U133A GeneChips平台的40例具有临床信息的HCC样本;
验证集5:来自Illumina HumanMethylation450 BeadChip 平台的27 例具有全基因组甲基化谱的样本。
分析方法
结果展示
对于TCGA数据,得到基因RNAseq以及miRNA和甲基化数据作为输入特征。使用深度学习方法将这三类组学数据整合到一起,结构如图1A所示。得到100个特征,然后我对100个特征进行单变量Cox-PH回归,发现与生存相关的37个特征。对这37个特征进行K均值聚类,最终确定最优的K是2,将两类展示不同的标签。对这两类使用交叉证实的支持向量机(SVM),具体步骤如图1B。最终如表1所示,训练集数据的C-index 高,brier score低,并且对生存差异的log-rank的p值显著。这些结果表明,使用聚类标签的分类模型对生存特定的聚类具有较强的鲁棒性。 在这一部分,为了验证分类模型在预测生存结局的鲁棒性,作者使用五个独立的样本集来验证,每个验证集的结果如图2所示。接下来作者又对每个验证集评估了指数,可以看到在表2中列出了这五个样本群的C-index,brierscore,以及log-rank的p值。3.DL算法的性能优于其他算法
在这一部分,作者将DL方法与两个其他方法相比较。在第一种方法中,使用传统的降维方法主成分分析(PCA)代替,获得了前100个主成分,然后进行单变量Cox-PH,最终得到13个主要组成分。但是,这种方法在检测生存亚组中给出的log-rank p值并不显著(P = 0.14)。在第二个比较方法中,有37个特征,但是最终得到的log-rank p值仍然不显著。此外,这两类方法在所有验证集中都没有很好的识别出生存亚组。
4. 增加临床信息并不能改善基于多组学数据的DL模型
在这一部分作者想探究加入临床信息会不会对模型起到优化效果。因此作者加入临床信息作为特征,对模型进行了评估,评估结果如表3所示。可以看出当临床因素作为特征时,对每个指数进行比较,与未加入临床特征的模型相比较,整体效果并不好。推测其原因可能是DL神经网络的独特优势,它可以通过相关的基因组特征为降低临床特征的冗余性做贡献。 作者在两个生存亚组和临床变量之间进行Fisher 's精确检验,发现只有grade(P=0.0004)和stage(P=0.002)与生存显著相关。由于HCC包括HBC、HCV和酒精在内的多种危险因素,作者就在按个体危险因素分层的样本群中测试了DL的模型(表4),结果表明在多数分级样本群中,模型的效果都比较好。并且TP53突变已经被证实与HCC的预后显著相关,而在这两个亚组中,Fisher 's精确检验结果表明TP53突变具有显著差异。6. TCGA HCC生存亚群的功能分析
作者在两个生存亚组和临床变量之间进行Fisher 's精确检验,发现只有grade(P=0.0004)和stage(P=0.002)与生存显著相关。由于HCC包括HBC、HCV和酒精在内的多种危险因素,作者就在按个体危险因素分层的样本群中测试了DL的模型(表4),结果表明在多数分级样本群中,模型的效果都比较好。并且TP53突变已经被证实与HCC的预后显著相关,而在这两个亚组中,Fisher 's精确检验结果表明TP53突变具有显著差异。 作者首先对识别到的两个生存亚组进行差异表达分析,得到上调基因以及下调基因。图3展示了标准化后的整体的表达信息。这些差异基因包括干性marker基因,癌症marker基因以及已经被证实和HCC进展有关的基因。接下来作者又对这些差异基因进行功能富集,功能富集结果如图4所示。图4A是S1类的富集结果,而S2类的富集结果展示在图4B中。总结一下,作者使用深度学习的方法整合多组学数据,对HCC样本群进行了预后分型,并且评估了模型的鲁棒性及分型效能。算是一篇非常棒的建模类文章了,到这里本期就结束了。