《A Cancer Survival Prediction Me
-
摘要
-
背景
- 现状:多种基因组数据和临床数据尚未综合考虑癌症并预测其生存率
-
方法
- 先对各种数据进行融合,然后用GCN来训练 image
-
结论
- GCN在癌症生存预测方面的有效性和优越性
-
-
介绍
-
异质性疾病癌症具有不同的分子特征、临床行为、形态学表现和对治疗的不同反应
-
一些传统的机器学习模型用于预测存活
- 一些机器学习分类方法,如支持向量机(SVM)[16-18],朴素贝叶斯分类器(NB)[19]和随机森林(RF)[20]也可用于预测癌症存活率。例如,Nguyen等人[21]提出了一种基于随机森林分类器和特征选择技术的乳腺癌诊断和预测方法,其结果优于先前报道的结果。
-
因此,在多组学数据加速发展的基础上,迫切需要开发一种有效的计算方法来准确预测癌症的预后。
-
多个基因组数据和临床数据都可以提高癌症生存率的预测性能,这意味着多个基因组数据和临床数据都从不同角度反映了癌症的生存率方面
-
-
方法
-
方法概述
-
1) 生成样本相似矩阵;
-
2) 生成样本特征矩阵;
-
3) 通过训练获得癌症生存分类器。
-
具体来说,整个过程分为三个步骤。首先,采用相似网络融合算法(SNF)将多个基因组数据和临床数据进行融合,得到样本相似矩阵a,然后采用最小冗余最大相关特征选择算法(mRMR)用于对多个基因组数据和临床数据进行特征选择,以获得最佳特征组合。根据这些最优特征,可以建立样本特征矩阵X。将X和A置于图卷积网络(GCN)中进行分类训练和预测,最终建立肿瘤生存预测模型
-
-
试验数据
- 一共249名患者,按照是否长期生存及进行打标 image
-
SNF
-
详情参考:《Similarity network fusion for aggregating data types on a genomic scale》
-
可获得整合多个基因组数据和临床数据的患者网络图结构。SNF算法从不同的数据源捕获共享和补充信息。应深入了解每种数据类型的样本之间观察到的相似性的信息量。由于它基于样本网络,即使从少量样本中也能获得有用信息,同时对噪声和数据异构性具有鲁棒性。
-
-
Min-redundancy max-relevance feature selection
-
背景:多维度
- 小样本由于数据集的高维性和小样本量容易导致模型过度拟合,并且模型与训练集的拟合度太高,因此未经训练的验证集和测试集的预测效果很差。因此,对于涉及大量特征的问题,特征选择对学习算法的成功起着至关重要的作用。
-
递归的方式找到最优化特征
-
-
GCN
-
Cancer survival prediction model GCGCN
-
Comparison with other cancer survival predictionm ethods
-
为了验证提出的癌症生存预测方法GCN的有效性,采用了五种常用的分类方法进行比较,分别是朴素贝叶斯分类(NB)[38,39]、K-最近邻分类(KNN)、逻辑回归(LR)、决策树(DT)和支持向量机(SVM)[40]。同时,为了验证所提出的整合多基因组数据和临床数据的方法的有效性,本对比实验将数据集分为三组:多基因组数据、临床数据和多基因组数据临床数据。
- 数据集的划分 image
-
-
-
试验
-
数据划分
-
7:1:2
-
数据被随机分配5组
-
-
特征赛选、
- 最佳特征赛选 image
-
模型参数
- GCN算法模型中,统一采用三层图卷积网络,分别为输入层、包含40个节点的隐藏层和输出层。在mRMR特征选择中,分别选择基因表达谱、拷贝数改变、DNA甲基化和外显子表达的50个最优特征,删除临床信息中的两个特征生存时间和生存状态,保留剩余特征,将所有这些特征组合起来,得到样本特征矩阵X
-
模型结果:5种不同的数据集
- 本文提出的多基因组数据与临床数据相结合的模型在癌症生存预测方面的预测性能指标明显优于仅使用单个基因组数据或临床数据的预测方法,表明临床数据和多基因组数据都可以从不同方面反映它们对具体癌症生存时间的影响。 image
- 各个模型之间auc的比较 image
-
生存曲线分析
-
-
结论
-