重磅来袭:WGCNA联合深度学习模型
今天跟大家分享的是2020年8月发表在Biomolecules杂志(IF=4.082)上的一篇文章:”Colorectal Cancer Prediction Based on Weighted Gene Co-Expression Network Analysis and Variational Auto-Encoder”。在文章中作者通过加权基因共表达网络分析(WGCNA)以及深度学习神经网络变异自动编码器(VAE)分别用于提取大肠癌中两种不同维度的特征构建分类器,通过支持向量机来探讨分类器的鲁棒性,诊断精确率高达0.9692。该方法为WGCNA共表达分析联合深度学习神经网络预测疾病进展提供新的思路。
Colorectal Cancer Prediction Based on Weighted Gene Co-Expression Network Analysis and Variational Auto-Encoder.
基于加权基因共表达网络分析和变分自动编码器的结直肠癌预测
一.研究背景
大肠癌(CRC)是一种恶性肿瘤,其发病率在全球肿瘤患者中排名第三,死亡率高居第二。尽管现代医疗技术进步显著,但大多数CRC患者中晚期预后仍不好。因此,需要对CRC进行有效的早期诊断和构建新的预后指标。一种有效的特征提取方法可以避免模型过度拟合的问题,特征提取方法是影响分类器性能的关键因素,可提高微阵列基因表达数据预测CRC的准确性。
二.结果解读
1.准备GEO数据集并进行数据矫正
选择来自数据集GSE8671,GSE9348和GSE23878的基因表达数据(正常组和癌症组)进行分析。PCA结果显示,在数据矫正前GSE23878与其他三个数据集有显着差异,而批次矫正后基本上消除了四个数据集的批处理效应。
图1.批次矫正前后PCA结果图
2. WGCNA进行特征提取
根据临床表型(normal vs tumor)作为性状,与全局网络构建共表达网络分析。结果显示,所有样品聚集在一起以形成17个模块,其中最小的模块包含36个基因。这些模块最多包含6377个基因,每个模块平均814个基因。
图2.分类后的系统聚类树
3.WGCNA核心基因的界定
根据模块与性状之间的相关性,选取与性状相关性系数最大的基因作为后续研究对象(MEturquoise模块),共包含6865个基因。后续通过模块内置函数GS > 0.5 & MM > 0.8 以及差异表达情况共筛选出165个基因,根据K值选取前10个基因作为关键基因。
表3. 模块化内连接性最高的前10个基因
4. 变异自动编码器(VAE)的实现
变异自编码是一种无监督学习,其利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。研究人员将大肠癌中共1159个差异基因作为输入变量,通过变异自编码器构建神经网络,其中模型中的隐藏层节点数分别为584、100、10、100和584,输入层和输出层节点为1159,利用变异自编码器构建了一个新的10维向量作为特征,用于后续模型构建。
5. 预测模型的分析结果
研究使用支持向量机SVM来确定用于数据集的分类方法。使用三个数据集作为训练集:GSE8671,GSE9348和GSE23878, 而GSE37364作为验证集。通过将WGCNA中筛选的关键基因以及VAE中降维后的新特征构建新的数据集,SVM用于对新的分类数据集进行分类,测试精度为0.9692,AUC为0.9981。这种两步式降维方法大大提高了分类精度。
小结
研究通过加权共表达网络筛选出10个关键基因,以及联合深度学习变异自动编码器将1159个差异基因降维后作为新的特征进一步组建新的数据集,并用SVM的方法进行分类,对大肠癌患者具有较强的预测效能。文章的分析思路已讲解完,看完文章是否有更进一步的想法:除了VAE,其他深度学习网络是否也可以?换另外一种疾病(肿瘤 or 非肿瘤)? 换另外一种疾病特征(转移、复发)?联合深度学习/机器学习方法在疾病预测中大有可为。