RISynG:用于癌症亚型识别的新型多组学聚类算法
癌症亚型识别是推进个性化抗癌治疗的关键步骤之一。然而目前从多组学数据中识别最相关的特征并系统地整合它们仍然存在局限性。近日,《Scientific Reports》发表了一种名为 RISynG的新型多组学聚类算法,可有效识别癌症亚型,并通过基准测试证明了RISynG优于该领域的其他方法。
RISynG是什么?
RISynG将多组学数据聚类视为多views聚类,其中来自多个组学平台的信息被整合以识别癌症中临床上重要的亚组。
首先,RISynG对于每个views使用图形表示矩阵计算两个样本相似性矩阵,即Gramian矩阵和Laplacian矩阵。随后,RISynG涉及使用参数化组合函数为各个组学views集成表示矩阵以生成协同矩阵。在第二步中,将通过协同矩阵为每个组学views捕获的变化进行融合:RISynG先根据它们的相关性排列所有协同矩阵;然后,设计了一个递归函数来合并每个协同矩阵,以便不太相关的矩阵对最终的集群结构只有轻微的影响。最后,对增量基矩阵的行应用k-means聚类以生成聚类标签。
RISynG的性能测试
RISynG的有效性在五个多组学癌症数据集上进行了广泛研究,并与用于癌症亚型识别的现有方法进行了比较,实验结果证明了 RISynG 优于该领域的其他方法。
RISynG在CESC、BRCA、LGG和STAD数据集上的聚类性能优于其他算法;且执行时间表明RISynG比其他算法更快。
对于所有外部聚类有效性指标,RISynG在CESC、BRCA、LGG和STAD数据集中优于单个组学views。对于大多数数据集,RISynG获得的聚类子空间比其他基于子空间的集成聚类方法(SNF、SURE、CoALa、iCluster、WMLRR和MiMIC)更具信息量。
当所有5个癌症数据集一起考虑时,RISynG在聚类评估指数和生物富集分析方面都表现出色。
在 95% 的置信度下,观察到只有通过RISynG鉴定的基因与文献中经过实验验证的基因有显着重叠(p=0.026),表明RISynG有潜力识别具有特征性分子信号的临床重要癌症亚型。
癌症亚型识别可以促进癌症诊断和治疗,是精确医学框架的重要组成部分之一,RISynG可以有效识别癌症亚型。
RISynG的python脚本和预处理的样本匹配数据集均可通过如下链接下载:
http://home.iitj.ac.in/~sushmitapaul/CBL/code/RISynG.zip
* 注:由于篇幅原因RISynG相关原理公式及性能测试数据表格未展示,建议参考原文相关数据以了解更详细的信息。
首发公号国家基因库大数据平台
参考文献
Madhumita, Dwivedi, A. & Paul, S. Recursive integration of synergised graph representations of multi-omics data for cancer subtypes identification. Sci Rep 12, 15629 (2022).
图片来源于Sci Rep官网和参考文献,如有侵权请联系删除。