CCST:基于图神经网络对空间转录组数据进行聚类分析
给 👉2022 MICOS 时空组赛道提供一丢丢思路
空间转录组学数据可以同时提供高通量基因表达谱和组织的空间结构。6月27日《Nature Computational Science》发表了一种基于图卷积网络(GCNs)的细胞聚类方法:CCST,这是一种基于GCNs的无监督细胞聚类方法,用于改进从头计算的细胞聚类和基于手动整理细胞类别注释的细胞亚型发现。
CCST是什么?
CCST是一种基于GCNs的细胞聚类方法,其可以结合空间基因表达数据中单个细胞的基因表达和复杂的全局空间信息。开发团队扩展了无监督节点嵌入方法Deep Graph Infomax(DGI),并开发了CCST,以从空间单细胞表达数据中发现细胞亚群。
1) 以单细胞位置和基因表达信息作为输入,CCST首先将空间数据编码为两个矩阵。一个是基于细胞邻域的混合邻接矩阵,其中一个超参数λ用于平衡细胞内(基因)和细胞外(空间)信息(方法),而另一个是单细胞基因表达谱矩阵;
2) 这两个矩阵都被输入DGI网络,为每个细胞计算出一个嵌入向量。DGI采用了一系列的GCN层,这使得它能够将图(细胞位置)和节点属性(基因表达)都整合为节点(单细胞)的嵌入向量。图中的边缘也进行了排列,以产生没有任何空间结构信息的负节点嵌入向量;
3) 在训练区分这两种嵌入类型后,CCST学会了编码一个包含空间结构和基因表达信息的细胞节点嵌入。通过主成分分析(PCA)降维后,使用k-means++算法进行节点聚类,以识别细胞组或亚群。
CCST的性能测试
开发团队将CCST在基于FISH的单细胞转录组和基于spot的空间转录组数据上进行了测试。还在体外和体内空间数据集上进行了测试,用于从头计算的细胞聚类和基于手动整理的细胞类别注释的细胞亚型发现任务。此外,还在两个空间转录组数据集中对CCST和其他方法的性能进行了比较。
结果表明
与此前的方法相比,CCST可以明确识别同一细胞类型的培养细胞中所有四个细胞周期阶段的细胞群,从而改善MERFISH数据集中从头计算的细胞聚类。
CCST可用于寻找细胞亚型及其相互作用,从小鼠嗅球(OB)和皮质组织的seqFISH+数据集中提供生物学见解。
开发团队还在两个ST数据集上对CCST与其他方法的性能进行了比较,CCST取得了更好的聚类结果。
与大多数现有方法中假设同一细胞组在空间上相互接近不同,CCST考虑到了整个组织样本中所有复杂的全局细胞相互作用。综上所述结果表明,CCST可以提供丰富的线索,以提高对细胞特性和相互作用以及组织和器官空间组织的理解。
CCST也存在一些局限性,例如将CCST应用于无先验知识的新数据集时,如何准确选择聚类数;CCST使用GCN学习细胞嵌入,并单独执行细胞聚类。因此,学习到的特征没有针对最终聚类目的进行优化。考虑到在CCST中,单细胞特征仅从基因表达信息中提取,该模型可以进一步扩展以整合多种表征,例如组织学图像用于形态学特征,RNA速度用于细胞动力学。预计这些方向的研究将在未来进一步提高该方法的性能。
CCST是用Python实现的,源代码可从如下链接获取:https://github.com/xiaoyeye/CCST.
参考文献
Li, J., Chen, S., Pan, X. et al. Cell clustering for spatial transcriptomics data with graph neural networks.Nat Comput Sci 2, 399–408 (2022).
图片来源于Nat Comput Sci官网和参考文献,如有侵权请联系删除。