盘点季 | 空间转录组工具合辑(下):聚类
新兴的空间转录组(ST)领域的技术发展开辟了一个未经探索的领域,将转录信息置于空间环境中。聚类通常是分析这类数据的核心组成部分。
ClusterMap
ClusterMap是一个无监督和无注释的计算工具,其基于两个关键的生物学现象:首先,细胞内RNA分子的密度高于细胞外;其次,不同基因编码的细胞RNA在不同的亚细胞位置、细胞类型和组织区域富集。因此,开发团队推断,通过对RNA的物理密度和基因身份进行联合聚类,可以直接从原位转录组数据中确定有生物学意义的模式和结构。随后,根据基因身份和空间尺度对空间聚类进行解析,以表示亚细胞定位、细胞分割和区域识别。
性能评估:与此前的方法相比,ClusterMap在模拟数据集和生物数据集中均表现出稳定的高性能。此外,ClusterMap广泛适用于各种实验方法,包括但不限于STARmap、MERFISH、ISS和osmFISH。实验结果表明ClusterMap从不同组织样本的原位转录组数据中准确地创建了RNA注释的亚细胞和细胞图谱,这些组织样本具有不同的RNA定位、细胞密度、形态和连接。
工具获取:
https://github.com/wanglab-broad/ClusterMap
https:// github.com/LiuLab-Bioelectronics-Harvard/ClusterMap
CoSTA
CoSTA是一种通过卷积神经网络(ConvNet)聚类学习基因表达矩阵之间空间相似性的新方法。CoSTA方法使用ConvNet聚类结构,重复(1)通过ConvNet生成特征,(2)通过GMM聚类生成软分配,以及(3)使用软分配来更新ConvNet。一旦完成训练,只保留训练好的ConvNet用于特征提取。由于ConvNet主要由卷积层组成,ConvNet提取的每个基因的最终向量应该是一个空间表示。利用这个空间表示可以在一个空间转录组数据集中量化任何两个基因之间的关系,利用UMAP将这个数据集中的所有SE基因可视化,并通过常见的聚类算法分配模式。
性能评估:通过分析模拟和此前发表的空间转录组数据,研究团队证明CoSTA学习基因之间的空间关系的方式是强调更广泛的空间模式而不是pixels级的相关性。CoSTA为每对基因之间的表达模式相似性提供了一个定量的衡量标准,而不仅仅是将基因归类。与其他方法相比,CoSTA识别的范围更窄,但在生物学上是显著相关的基因集。CoSTA可以成功地实现从计算机视觉的深度学习思想来推断空间基因表达关系,其可以应用于任何为每个基因输出基因表达信息的图像类型矩阵的技术,不仅包括性能测试中探讨的Slide-seq和MERFISH,还包括STARmap、10×Visium和HDST。
工具获取:
https://doi.org/10.5281/zenodo.3948711
BayesSpace
BayesSpace是一种完全贝叶斯统计方法,它使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。BayesSpace是一种基于空间转录组模型的聚类方法,通过对基因表达矩阵的低维表示进行建模并通过空间先验鼓励相邻点属于同一簇来实现空间聚类。与以前的方法相比,BayesSpace允许对聚类结构和错误项进行更灵活的规范。BayeSpace通过广泛使用的Bioconductor SingleCellExperiment数据结构将预处理数据作为输入,无缝集成到空间转录组分析工作流中,输出同样存储在SingleCellExperiment对象中,该对象可用于下游分析。这些方法都实现为一个R包,可以在Bioconductor上公开访问(http://www.bioconductor.org/packages/release/bioc/html/BayesSpace.html)。
性能评估:研究人员将BayesSpace与现有的空间和非空间聚类方法进行基准测试,结果表明其改善了从大脑、黑色素瘤、浸润性导管癌和卵巢腺癌样本中识别不同的组织内转录谱的能力。通过使用免疫组化和一个由scRNA-seq数据构建的模拟数据集,研究人员发现解析了在原始分辨率下无法检测到的组织结构,并识别了组织学分析无法识别的转录异质性。这些结果说明了BayesSpace在促进从空间转录组数据中发现生物学洞见方面的实用性。
工具获取:
http://www.bioconductor.org/packages/release/bioc/html/BayesSpace.html
https://github.com/edward130603/BayesSpace
FICT
FICT是一种在分配细胞类型时结合了表达和邻域信息的新方法。FICT最大化了联合概率似然函数,该函数考虑了每个细胞中基因的表达和细胞类型的联合多变量空间分布。其首先定义了一个生成混合模型:每个细胞根据其邻域分配一个细胞类型,然后从细胞类型的特定分布中提取基因表达水平的降维表示。接下来通过最大化基因表达和细胞位置的联合可能性来学习这个生成模型的参数。然后通过这个生成模型的后验分布推断出细胞类型,并给出基因表达水平和细胞位置。
性能评估:使用模拟数据FICT可以正确地确定每个细胞的表达和提供相邻细胞类型分布信息的参数,改进了仅依靠表达水平的生成和鉴别方法,以及没有考虑到每个细胞完整邻域的方法。对于真实的数据,研究表明FICT对不同动物的相同组织所学到的模型有很好的一致性,它确实可以利用空间信息来纠正表达值中的噪声所造成的错误,而且即使在表达谱相似的情况下,它也可以用来识别空间上不同的细胞亚型。
工具获取:
https://github.com/haotianteng/FICT
SpatialCPie
SpatialCPie是一个易于使用的R包,可以让用户直观地了解ST数据中的“簇”是如何相互关联的,以及二维ST阵列上的每个区域与每个“簇”的关联程度。SpatialCPie被设计成R工作流的一部分,使用户可以高度灵活地定制和快速迭代他们的分析。数据在多种分辨率下进行聚类--即采用不同数量的聚类或超参数设置--从而避免了为分析预先指定单一的超参数集,用户可以自由定义使用哪种聚类算法。结果以两种方式可视化:用聚类图显示不同分辨率之间的聚类重叠情况;用二维数组图,其中每个点用饼图表示,表示其与不同聚类中心点的相似度。SpatialCPie的用户界面是用Shiny实现的。该界面主要由两部分组成:Cluster graph和Array plot。
性能评估:SpatialCPie可以用来分析任何具有空间分布的计数数据的数据集,开发团队展示了其在三个公开的ST数据集(发育中的人类心脏、原位乳腺癌和黑色素瘤)上的实用性,在此之前所有数据均使用Seurat进行了归一化。
工具获取:
https://github.com/jbergenstrahle/SpatialCPie
首发公号:国家基因库大数据平台
参考文献
[1] He, Y., Tang, X., Huang, J. et al. ClusterMap for multi-scale clustering analysis of spatial gene expression.Nat Commun 12, 5909 (2021).
[2] Xu, Y., McCord, R.P. CoSTA: unsupervised convolutional neural network learning for spatial transcriptomics analysis. BMC Bioinformatics 22, 397 (2021).
[3] Zhao, E., Stone, M.R., Ren, X. et al. Spatial transcriptomics at subspot resolution with BayesSpace. Nat Biotechnol (2021).
[4] Teng H, Yuan Y, Bar-Joseph Z. Clustering spatial transcriptomics data[J]. Bioinformatics, 2021.
[5] Bergenstråhle J, Bergenstråhle L, Lundeberg J. SpatialCPie: an R/Bioconductor package for spatial transcriptomics cluster evaluation[J]. BMC bioinformatics, 2020, 21: 1-7.
图片均来源于参考文献,如有侵权请联系删除。