重磅来袭：WGCNA联合深度学习模型

2020-11-03 本文已影响0人生信风暴

今天跟大家分享的是2020年8月发表在Biomolecules杂志（IF=4.082）上的一篇文章：”Colorectal Cancer Prediction Based on Weighted Gene Co-Expression Network Analysis and Variational Auto-Encoder”。在文章中作者通过加权基因共表达网络分析（WGCNA）以及深度学习神经网络变异自动编码器（VAE）分别用于提取大肠癌中两种不同维度的特征构建分类器，通过支持向量机来探讨分类器的鲁棒性，诊断精确率高达0.9692。该方法为WGCNA共表达分析联合深度学习神经网络预测疾病进展提供新的思路。

Colorectal Cancer Prediction Based on Weighted Gene Co-Expression Network Analysis and Variational Auto-Encoder.

基于加权基因共表达网络分析和变分自动编码器的结直肠癌预测

一.研究背景

大肠癌（CRC）是一种恶性肿瘤，其发病率在全球肿瘤患者中排名第三，死亡率高居第二。尽管现代医疗技术进步显著，但大多数CRC患者中晚期预后仍不好。因此，需要对CRC进行有效的早期诊断和构建新的预后指标。一种有效的特征提取方法可以避免模型过度拟合的问题，特征提取方法是影响分类器性能的关键因素，可提高微阵列基因表达数据预测CRC的准确性。

二.结果解读

1．准备GEO数据集并进行数据矫正

选择来自数据集GSE8671，GSE9348和GSE23878的基因表达数据（正常组和癌症组）进行分析。PCA结果显示，在数据矫正前GSE23878与其他三个数据集有显着差异，而批次矫正后基本上消除了四个数据集的批处理效应。

图1.批次矫正前后PCA结果图

2. WGCNA进行特征提取

根据临床表型（normal vs tumor）作为性状，与全局网络构建共表达网络分析。结果显示，所有样品聚集在一起以形成17个模块，其中最小的模块包含36个基因。这些模块最多包含6377个基因，每个模块平均814个基因。

图2.分类后的系统聚类树

3.WGCNA核心基因的界定

根据模块与性状之间的相关性，选取与性状相关性系数最大的基因作为后续研究对象（MEturquoise模块），共包含6865个基因。后续通过模块内置函数GS > 0.5 & MM > 0.8 以及差异表达情况共筛选出165个基因，根据K值选取前10个基因作为关键基因。

表3. 模块化内连接性最高的前10个基因

4. 变异自动编码器（VAE）的实现

变异自编码是一种无监督学习，其利用反向传播算法使得输出值等于输入值的神经网络，它先将输入压缩成潜在空间表征，然后通过这种表征来重构输出。研究人员将大肠癌中共1159个差异基因作为输入变量，通过变异自编码器构建神经网络，其中模型中的隐藏层节点数分别为584、100、10、100和584，输入层和输出层节点为1159，利用变异自编码器构建了一个新的10维向量作为特征，用于后续模型构建。

5. 预测模型的分析结果

研究使用支持向量机SVM来确定用于数据集的分类方法。使用三个数据集作为训练集：GSE8671，GSE9348和GSE23878, 而GSE37364作为验证集。通过将WGCNA中筛选的关键基因以及VAE中降维后的新特征构建新的数据集，SVM用于对新的分类数据集进行分类，测试精度为0.9692，AUC为0.9981。这种两步式降维方法大大提高了分类精度。

小结

研究通过加权共表达网络筛选出10个关键基因，以及联合深度学习变异自动编码器将1159个差异基因降维后作为新的特征进一步组建新的数据集，并用SVM的方法进行分类，对大肠癌患者具有较强的预测效能。文章的分析思路已讲解完，看完文章是否有更进一步的想法：除了VAE，其他深度学习网络是否也可以？换另外一种疾病（肿瘤 or 非肿瘤）? 换另外一种疾病特征（转移、复发）？联合深度学习/机器学习方法在疾病预测中大有可为。

重磅来袭：WGCNA联合深度学习模型

猜你喜欢

热点阅读