CoSTA:用于空间转录组分析的无监督卷积神经网络学习方法
2021年8月,来自美国研究人员在《BMC Bioinformatics》杂志发表了题为“CoSTA: unsupervised convolutional neural network learning for spatial transcriptomics analysis”的研究论文,提出了CoSTA:一种通过卷积神经网络(ConvNet)聚类学习基因表达矩阵之间空间相似性的新方法。
空间转录组学技术的兴起使人们对基因调控如何在空间环境下发生有了新的认识。确定哪些基因以类似的空间模式表达可以揭示组织中不同类型细胞的基因调控关系。然而,目前许多分析方法没有充分利用数据的空间组织,而是将pixels作为独立的特征。
CoSTA是什么?
研究人员提出了一种受计算机视觉和图像分类启发的方法,以寻找不同基因的空间表达模式之间的关系,同时保留完整的空间背景。CoSTA方法包括两个主要部分:通过高斯混合模型(GMM)进行聚类,以及在训练神经网络中通常进行的权重更新。
CoSTA方法使用ConvNet聚类结构,重复(1)通过ConvNet生成特征,(2)通过GMM聚类生成软分配,以及(3)使用软分配来更新ConvNet。一旦完成训练,只保留训练好的ConvNet用于特征提取。由于ConvNet主要由卷积层组成,ConvNet提取的每个基因的最终向量应该是一个空间表示。利用这个空间表示可以在一个空间转录组数据集中量化任何两个基因之间的关系,利用UMAP将这个数据集中的所有SE基因可视化,并通过常见的聚类算法分配模式。
CoSTA的功能测试
通过分析模拟和此前发表的空间转录组数据,研究团队证明CoSTA学习基因之间的空间关系的方式是强调更广泛的空间模式而不是pixels级的相关性。CoSTA为每对基因之间的表达模式相似性提供了一个定量的衡量标准,而不仅仅是将基因归类。与其他方法相比,CoSTA识别的范围更窄,但在生物学上是显著相关的基因集。
对合成数据的测试表明,CoSTA具有高度的特异性、对空间关系的依赖性以及区分信号和噪声的能力。
CoSTA 按细胞类型对基因进行分类,并确定MERFISH数据中基因之间的定量关系。
Slide-seq数据的CoSTA分析:CoSTA学习的特征与空间表达模式紧密相关;集成学习确定空间基因表达模式之间的稳定关系。
与SPARK和SpatialDE相比,CoSTA识别出了更小的、但具有特异性和生物学相关性的空间相关基因集。
CoSTA方法可以成功地实现从计算机视觉的深度学习思想来推断空间基因表达关系。这种方法可以应用于任何为每个基因输出基因表达信息的图像类型矩阵的技术,不仅包括本文探讨的Slide-seq和MERFISH,还包括STARmap、10×Visium和HDST。
文中使用的CoSTA代码版本可以在以下网址获取:https://doi.org/10.5281/zenodo.3948711
处理过的MERFISH和Slide-seq数据和本研究中所有分析的脚本可在如下网址获取:https://github.com/rpmccordlab/CoSTA
首发公号:国家基因库大数据平台
参考文献
Xu, Y., McCord, R.P. CoSTA: unsupervised convolutional neural network learning for spatial transcriptomics analysis. BMC Bioinformatics 22, 397 (2021).
图片来源于BMC Bioinformatics官网和参考文献,如有侵权请联系删除。