9分的Deep Learning肝癌建模文献介绍+社区优秀文章汇

2019-08-12 本文已影响52人 vegene

相信大家对深度学习（Deep Learning简称DL）这个名词并不陌生，听过很多，但是深究其义又不能很好的讲清楚。

深度学习的字面含义是指学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。在生物信息学中，深度学习的一个应用就是DL模型，该模型作为一个Classifier可以将样本分类，但是分类效果究竟如何呢？请看今天为大家带来的文章。

DOI ：10.1158/1078-0432.CCR-17-0853

该杂志本年度影响因子为8.911

研究背景

将患者根据不同的生存预期分类能使患者得到更好的照料，但目前缺少通过整合多组学数据预测HCC患者生存状况的研究。作者提出了一个基于深度学习的HCC模型，该模型可以稳健地将患者分成6个生存亚群。并且作者对该模型进行优化尝试和性能对比，发现分类效果好于其他两种常见的分类方法。

数据来源

训练集：来自TCGA的360 例样本的RNA-seq 数据, miRNA-seq 数据, DNA甲基化数据以及临床信息；

验证集1：来自ICGC的230 例样本的 RNA-seq 数据；

验证集2：来自GSE14520的221 例具有生存信息的样本；

验证集3：来自GSE31384的166对HCC与正常组织的配对样本；

验证集4：来自Affymetrix HG-U133A GeneChips平台的40例具有临床信息的HCC样本；

验证集5：来自Illumina HumanMethylation450 BeadChip 平台的27 例具有全基因组甲基化谱的样本。

分析方法

结果展示

对于TCGA数据，得到基因RNAseq以及miRNA和甲基化数据作为输入特征。使用深度学习方法将这三类组学数据整合到一起，结构如图1A所示。得到100个特征，然后我对100个特征进行单变量Cox-PH回归，发现与生存相关的37个特征。对这37个特征进行K均值聚类，最终确定最优的K是2，将两类展示不同的标签。对这两类使用交叉证实的支持向量机（SVM），具体步骤如图1B。最终如表1所示，训练集数据的C-index 高，brier score低，并且对生存差异的log-rank的p值显著。这些结果表明，使用聚类标签的分类模型对生存特定的聚类具有较强的鲁棒性。

在这一部分，为了验证分类模型在预测生存结局的鲁棒性，作者使用五个独立的样本集来验证，每个验证集的结果如图2所示。接下来作者又对每个验证集评估了指数，可以看到在表2中列出了这五个样本群的C-index，brierscore，以及log-rank的p值。

3.DL算法的性能优于其他算法

在这一部分，作者将DL方法与两个其他方法相比较。在第一种方法中，使用传统的降维方法主成分分析（PCA）代替，获得了前100个主成分，然后进行单变量Cox-PH，最终得到13个主要组成分。但是，这种方法在检测生存亚组中给出的log-rank p值并不显著（P = 0.14）。在第二个比较方法中，有37个特征，但是最终得到的log-rank p值仍然不显著。此外，这两类方法在所有验证集中都没有很好的识别出生存亚组。

4. 增加临床信息并不能改善基于多组学数据的DL模型

在这一部分作者想探究加入临床信息会不会对模型起到优化效果。因此作者加入临床信息作为特征，对模型进行了评估，评估结果如表3所示。可以看出当临床因素作为特征时，对每个指数进行比较，与未加入临床特征的模型相比较，整体效果并不好。推测其原因可能是DL神经网络的独特优势，它可以通过相关的基因组特征为降低临床特征的冗余性做贡献。

作者在两个生存亚组和临床变量之间进行Fisher 's精确检验，发现只有grade(P=0.0004)和stage(P=0.002)与生存显著相关。由于HCC包括HBC、HCV和酒精在内的多种危险因素，作者就在按个体危险因素分层的样本群中测试了DL的模型（表4），结果表明在多数分级样本群中，模型的效果都比较好。并且TP53突变已经被证实与HCC的预后显著相关,而在这两个亚组中，Fisher 's精确检验结果表明TP53突变具有显著差异。

6. TCGA HCC生存亚群的功能分析

作者首先对识别到的两个生存亚组进行差异表达分析，得到上调基因以及下调基因。图3展示了标准化后的整体的表达信息。这些差异基因包括干性marker基因，癌症marker基因以及已经被证实和HCC进展有关的基因。接下来作者又对这些差异基因进行功能富集，功能富集结果如图4所示。图4A是S1类的富集结果，而S2类的富集结果展示在图4B中。总结一下，作者使用深度学习的方法整合多组学数据，对HCC样本群进行了预后分型，并且评估了模型的鲁棒性及分型效能。算是一篇非常棒的建模类文章了，到这里本期就结束了。

9分的Deep Learning肝癌建模文献介绍+社区优秀文章汇

猜你喜欢

热点阅读