实用干货|Seurat-空间转录组数据基本分析教学

2022-01-13 本文已影响0人百奥益康

上一篇文章对用Seurat分析单细胞数据进行了比较详细的介绍（实用干货|Seurat-单细胞转录组测序分析R包教学），今天介绍一下如何应用Seurat分析空间转录组。虽然分析流程类似于scRNA-seq分析，但引入了更新的交互和可视化工具，特别强调了空间和分子信息的整合。本文将从标准化、降维和聚类、检测空间高变基因、交互式可视化、与单细胞RNA-seq数据整合以及处理多个切片方面进行介绍。

第一步，加载相应的包

第二步，加载数据

以小鼠大脑切片数据为例，示例数据自行下载：自行下载时，如果是为了走下游分析，只需要下载 filtered_feature_bc_matrix.h5文件和一个spatial文件夹就可以了。其中，spatial主要是存储图片以及细胞对应的图中的位置信息，不包含表达量信息。

图1 分子计数

这些图表明，跨点分子计数的差异不仅在技术上，而且依赖于组织解剖学。例如，神经元（如皮质白质）缺失的组织区域，可反复显示较低的分子计数。因此，标准化方法（如函数LogNormalize()）可能会有问题，这些方法使每个数据点在标准化后具有相同的基础"大小"。

第三步，数据预处理

在spot中基因表达数据进行初始的预处理步骤与典型的scRNA-seq相似。我们首先需要对数据进行规范化，以考虑数据点之间测序深度的差异。我们注意到，对于空间数据集来说，分子数/点的差异可能是巨大的，特别是在整个组织的细胞密度存在差异的情况下。我们在这里看到大量的异质性，这需要有效的标准化。

作为一种替代方法，我们推荐使用sctransform，它构建了基因表达的正则化负二项模型，以便在保留生物差异的同时考虑技术因素。有关sctransform的更多信息，请参见https://www.biorxiv.org/content/10.1101/576827v2的预印和https://satijalab.org/seurat/sctransform_vignette.html的Seurat教程。sctransform将数据归一化，检测高方差特征，并将数据存储在SCT分析中。

第四步，基因表达可视化

在 Seurat 中，我们具有探索空间数据固有的视觉性质并与之交互的功能。SpatialFeaturePlot()是Seurat 的FeaturePlot()扩展，并且可以在组织学上覆盖分子数据。例如，在小鼠大脑的这一数据集中，Hpca基因是一个强大的海马标记，Ttr是choroid plexus的标记。

图2 基因表达可视化

Seurat调整斑点的大小（和它们的透明度）来改善组织学图像的可视化，通过改变以下参数:

pt.size。这将调整斑点像素大小。默认为1.6

alpha-最小和最大透明度。默认是c(1,1)

c(0.1,1))修改透明度，从而使得表达基因数目较低的处于低可视状态

图3 基因表达可视化（低可视状态）

第五步，降维、聚类和可视化

我们可以使用DimPlot()在 UMAP 空间中或使用SpatialDimPlot()可视化聚类的结果。

图4 降维UMAP图

由于色彩众多，具体使用哪些色彩展示，因人而异。可以使用label参数进行个性化定制。

此外，也可以使某些群突出显示。

图5 个性化展示

第六步，鉴别空间转录组特异基因

Seurat提供两个工作流程来识别与组织内空间位置相关的分子特征。首先是根据组织内预先注释的解剖区域进行差异表达分析，这些区域可能由不受监督的聚类或先验的知识确定。在这种情况下，此策略将起作用，因为上述集群表现出明确的空间限制。

图6 特异基因展示

第二种，在 FindSpatiallyVariables() 中实现的另一种方法是在没有预注释的情况下搜索表现出空间模式的特征。默认方法（method = 'markvariogram’）受到 Trendsceek 的启发，它将空间转录组学数据建模为标记点过程并计算“变异函数”，该方法识别表达水平取决于其空间位置的基因。更具体地说，此过程计算 gamma(r) 值，该值测量相距特定“r”距离的两个点之间的相关性。默认情况下，我们在这些分析中使用 r 值“5”，并且仅计算可变基因的这些值（其中变异的计算与空间位置无关）以节省时间。

现在，我们可视化此方法确定的前6个特征基因的表达情况。

图7 特异基因展示

第七步，可视化解剖区域的子集

与单细胞对象一样，您可以对该对象进行子集设置，以将重点放在数据的子集上。在这里，我们大致划分了额叶皮质。这个过程也促进了这些数据与下一节的皮层scRNA-seq数据集的整合。首先，我们取集群的一个子集，然后根据精确的位置进一步细分。设置好亚组后，我们可以在完整图像或裁剪图像上看到皮质细胞。

图8 数据子集

第八步，与single-cell数据的整合

在〜50um时，来自于病毒测定的斑点将涵盖多个细胞的表达谱。对于可获得scRNA-seq数据的系统列表不断增加，用户可能有兴趣对每个空间体素进行“反卷积”以预测细胞类型的潜在组成。在准备此小插图时，我们使用了参考scRNA-seq数据集测试了多种decovonlution和整合方法使用SMART-Seq2协议生成的来自Allen Institute的约14,000个成年小鼠皮质细胞分类学。我们一直发现使用积分方法（而不是反卷积方法）具有更好的性能，这可能是由于表征空间和单细胞数据集的噪声模型存在很大差异，并且积分方法专门设计为对这些差异具有鲁棒性。因此，我们应用了Seurat v3中引入的基于“锚”的集成工作流，该工作流使注释能够从引用到查询集的概率传输。因此，我们利用sctransform归一化方法遵循此处介绍的标签传输工作流程，但期望开发出新方法来完成此任务。

我们首先加载数据，对scRNA-seq参考进行预处理，然后执行标签转移。该过程为每个点输出每个scRNA-seq派生类的概率分类。我们将这些预测添加为Seurat对象中的一项新分析。