10X单细胞空间联合分析方法汇总及算法总结
hello,又是周一,新的开始,今天是二月二十八日,对于台湾同胞来说是一个沉重的日子,时间很快,快到我们毫无感觉就到了30岁,而立之年,这一篇我们进行一下汇总,对单细胞空间联合分析的软件进行一下系统性的总结,同时参考了一篇文章,A comprehensive comparison on cell type composition inference for spatial transcriptomics data,是一篇综述文章,好了,开始分享吧。
方法大概就这么多,每种方法都有其算法的特点,我们来一一解读。
Cell2location
Cell2location 采用分层贝叶斯框架,假设基因表达计数遵循负二项分布。 它首先使用外部 scRNAseq 数据作为参考来估计细胞类型特异性特征。 观察到的空间表达计数矩阵用负二项分布建模,其中基因可用的特定技术敏感性、基因和位置特定的加性偏移作为平均参数的一部分包括在内。 然后 cell2location 使用变分贝叶斯推理来近似后验分布并相应地产生参数估计 。
DestVI
使用变分推理 (DestVI) 对空间转录组学剖面进行反卷积是一种用于 ST 数据多分辨率分析的概率方法。 DestVI 通过连续的潜在变量明确地模拟细胞类型内的变化,而不是将分析限制在细胞类型的离散视图中。这种连续的细胞内类型变化以及相应的细胞类型特定配置文件是通过条件深度生成模型学习的,特别是使用解码器神经网络的变分推理。在该方案中,分别为 scRNA-seq (scLVM) 和 ST 数据 (stLVM) 构建了两个不同的潜在变量模型 (LVM)。 DestVI 同样假设观察到的转录本的数量遵循负二项分布。 stLVM 使用由 scLVM 训练的解码器神经网络,并使用最大后验 (MAP) 推理方案获得细胞类型比例,其中假设每个点中观察到的转录本的数量遵循推断的单细胞的加权和负二项分布。
RCTD
RCTD 最初是为 Slide-seq 数据设计的,但它也可以用于其他 ST 数据。 它假设观察到的每个spot的spot-level基因计数遵循泊松分布,同时通过包含基因特异性随机效应项来解释平台效应。 RCTD 首先使用外部 scRNA-seq 参考数据来估计每种细胞类型的平均基因表达谱。 然后通过选择跨细胞类型的差异表达 (DE) 基因来执行基因过滤,并估计基因特异性平台效应的方差。 将推断的平台效应插入概率模型以获得细胞类型比例的最大似然估计 (MLE)。
STdeconvolve
STdeconvolve 是一种针对 ST 数据的无参考和无监督细胞类型反卷积方法。 STdeconvolve 与其他方法的主要区别在于 STdeconvolve 可以在不使用外部 scRNA-seq 参考的情况下执行细胞类型反卷积。 该方法建立在潜在狄利克雷分配 (LDA) 的基础上,以识别每种细胞类型的推定转录谱及其在每个 ST 点中的比例,其定义为由多项式分布和细胞类型分布建模的预定数量的细胞类型的混合物是从uniform Dirichlet distribution中得出的。 STdeconvolve 假设每种细胞类型都存在高度共表达的基因,并选择显着过度分散的基因来告知潜在细胞类型。
Stereoscope
Stereoscope 实现了反卷积目的,同时使用带注释的 scRNA-seq 参考和 ST 数据对细胞类型进行空间映射。 Stereoscope 还依赖于常用的假设,即空间和单细胞数据的计数均遵循负二项分布。 Stereoscope 包含一个噪声术语作为“虚拟”细胞类型的一种形式,以解释不对称数据集,其中细胞类型在空间和单细胞数据中没有完美重叠。 MLE 用于使用 scRNA-seq 参考数据估计细胞类型特定参数,MAP 用于推断 ST 数据中的细胞类型混合。
SPOTlight
SPOTlight 是一种反卷积算法,它采用非负矩阵分解 (NMF) 回归算法以及非负最小二乘法 (NNLS)。 在 SPOTlight 中,执行 NMF 以识别 scRNA-seq 参考中特定于细胞类型的top profile,并执行 NNLS 来识别spot top profile,这是反卷积的结果。 此外,据报道,SPOTlight 在不同的生物场景和具有匹配和外部参考的不同技术版本中执行灵敏且准确。
DSTG
DSTG 是一种基于相似性的半监督图卷积网络 (GCN) 模型,可以恢复每个点的细胞类型比例。 通过利用 scRNA-seq 数据,DSTG 首先通过随机汇集从 scRNA-seq 数据中选择的 2 到 8 个细胞作为 ST 点,构建称为“伪 ST”的合成 ST 数据。 然后,为了捕捉点之间的相似性并合并伪 ST 和真实 ST 数据,DSTG 通过在典型相关分析 (CCA) 识别的共享空间中找到相互最近的邻居来学习链接图。 半监督 GCN 使用伪和真实 ST 数据和链接图进行训练,可用于预测真实 ST 数据中的细胞类型比例。
总之,许多功能强大的 ST 反卷积工具已经专门针对 ST 数据集开发和定制。 这些方法在模拟和真实数据集中都证明了它们的实用性。 通过了解 ST 数据中的细胞比例变化以及空间信息进行下游分析,我们可以更好地揭示潜在的生物学机制,并进一步发现使用 scRNA-seq 数据集无法实现的新发现。 然而,目前还没有对这些细胞去卷积方法进行公平和全面的比较。 我们将使用多个真实的 ST 数据集,包括单细胞水平分辨率和带有病理学家注释的点级分辨率 ST 数据,以系统和客观地评估这些方法的性能。
图片.png图片.png
一些比较的分析结果(作为参考)
图片.png图片.png
图片.png
简单看一下比较的结果
总而言之,没有一种方法能够在不同的组织类型中始终优于其他方法。在研究中测试的大多数概率方法,尤其是 Adroit、RCTD、Cell2Location 和 Stereoscope,在整个组织中都表现出始终如一的高性能。 STdeconvolve 作为唯一的无参考方法,具有识别组织结构和细胞混合物的能力,但必须仔细处理细胞类型映射。彻底评估了各种情况,包括不同的组织、不同的技术和数据分辨率、不同数量的单细胞和斑点,以及用于分析的基因的数量和类型。因此,建议调查人员首先确定我们评估的一些与他们自己的数据最匹配的情景,并在这些情景下选择表现最佳的方法。
With the use of the appropriately chosen methods and gene sets, we hope the increased accuracy of cell mapping inference will assist in the future downstream analyses
噪声和高维 ST 数据的去噪和降维可以允许更有效的信息提取。我们预计细胞类型反卷积将进一步受益于有效去噪和减少 ST 数据维度的方法的开发和进步。
生活很好,有你更好