10X空间转录组数据分析梳理
hello,周四了,时间怎么过的这么快呢??我的记忆还停留在刚过完年拔充电线的那一刻,时间啊,慢些吧,想静静的感受一下生活的美好,虽然生活总是打击我们,但我们还是要拥抱生活,最近看了个日剧,其中有这么一句话,什么可以代表我们的人生?是房子?财富?地位?女人?这些虽然很好,但代表不了我们的人生,真正代表我们人生的,是你为了追求理想不断付出的努力过程,过程很痛苦,所以随时有人放弃,过程也很快乐,因为并不孤独~~~~
好了,这一篇我们来梳理空间转录组的分析思路,先放一张图
![](https://img.haomeiwen.com/i18814178/511a41799b8352ef.png)
这一篇我们参考的文章在Deep Learning in Spatial Transcriptomics: A Survey of Deep Learning Methods for Spatially-Resolved Transcriptomics,文章只是对空间转录组的分析进行了梳理,绝大部分我们都已经知道了,再梳理一下,让大家对空间转录组有一个更为清晰的认知。
空间转录组学 (ST) 技术正迅速成为单细胞 RNA 测序 (scRNAseq) 的延伸,具有以单细胞分辨率分析基因表达的潜力,同时保持组织内的细胞组成。同时拥有表达谱和组织组织使研究人员能够更好地了解细胞相互作用和异质性,从而深入了解传统测序技术无法实现的复杂生物过程。 ST 技术生成的数据本质上是嘈杂的、高维的、稀疏的和多模态的(包括组织学图像、计数矩阵等),因此需要专门的计算工具来进行准确和稳健的分析。然而,目前许多 ST 研究使用传统的 scRNAseq 工具,这些工具不足以分析复杂的 ST 数据集。另一方面,许多现有的特定于 ST 的方法都是建立在传统的统计或机器学习框架之上的,由于空间分辨数据的规模、多模态和限制,这些方法在许多应用中都不是最优的(如空间分辨率、灵敏度和基因覆盖率)。鉴于这些复杂性,研究人员开发了基于深度学习 (DL) 的模型来缓解 ST 特有的挑战。这些方法包括对齐、空间重建和空间聚类等新的最先进模型。然而,用于 ST 分析的深度学习模型是新生的,并且在很大程度上仍未得到充分探索。在这篇综述中,概述了用于分析空间分辨转录组学的现有最先进工具,同时更深入地研究了基于 DL 的方法。讨论了该领域的新前沿和未解决的问题,并强调了我们预计转型 DL 应用的领域。
INTRODUCTION
尽管多细胞生物在其细胞内包含一个共同的基因组,但细胞的形态和基因表达模式在很大程度上是不同的和动态的。 这些差异源于内部基因调控系统和外部环境信号。 细胞在组织中增殖、分化和发挥作用,同时从周围环境发送和接收信号。 这些环境因素导致细胞命运高度依赖于它所处的环境。 因此,研究细胞在驻留组织中的行为对于了解细胞功能及其过去和未来的命运至关重要。
单细胞测序的进步已经改变了基因组学和生物信息学领域。单细胞 RNA 测序 (scRNAseq) 的出现使研究人员能够分析各种组织和器官的基因表达水平,从而使他们能够创建不同物种的综合图谱。此外,scRNAseq 能够检测组织内存在的不同亚群;这对于发现新的生物过程、疾病的内部运作和治疗的有效性至关重要。然而,实体组织的高通量测序需要组织解离,导致空间信息的丢失。为了充分了解细胞相互作用,需要组织形态和空间信息的数据,而单靠 scRNAseq 无法提供这些数据。从发育阶段(例如母细胞和子细胞的不对称细胞命运)到细胞分化(例如细胞功能、对刺激的反应和组织稳态),细胞在组织内的放置至关重要。这些限制将通过可以在单细胞水平测量基因表达的同时保留空间信息的技术得到缓解。
Spatial Transcriptomics (ST) provide an unbiased view of tissue organization crucial in understanding cell fate, delineating heterogeneity, and other applications。然而,与 scRNAseq 相比,当前许多 ST 技术的灵敏度较低,同时缺乏 scRNAseq 提供的单细胞分辨率。靶向原位技术试图解决分辨率和灵敏度的问题,但在基因通量方面受到限制,并且通常需要对靶基因的先验知识。更具体地说,原位技术(例如原位测序、单分子荧光原位杂交(smFISH)、靶向扩增测序、环状衔尾蛇smFISH(osmFISH)、多重抗错荧光原位杂交(MERFISH)、序列 FISH (seqFISH+) 和空间分辨转录扩增子读数映射 (STARmap) 通常仅限于数百个数量级的预选基因,随着更多探针的添加,准确性可能会下降。将参考这些方法称为基于图像的技术。
另一方面,基于下一代测序 (NGS) 的技术(例如 10x Genomics 的 Visium 及其前身 Slide-Seq、HDST)对整个转录组进行条形码化,但捕获率有限,分辨率大于单个细胞( Visium 为 50 μm - 100 μm,Slide-Seq 为 10 μm)。 此外,与基于图像的技术不同,基于 NGS 的方法允许对大型组织切片进行无偏见的分析,而无需一组靶基因。 然而,基于 NGS 的技术不具有单细胞分辨率,需要使用计算方法推断细胞特征或将其与组织学尺度相关联。 许多当前算法使用需要人工监督的传统统计或医学图像处理框架,这对于大规模分析来说并不理想。 此外,许多算法无法在不同的测序平台上推广,这限制了它们的实用性并限制了多组学集成工作。
深度学习 (DL) 方法可以使用原始数据来提取执行任务所需的有用表示(或信息),例如分类或检测。这种质量使得此类机器学习 (ML) 算法非常适合可用数据量大、维数更高且嘈杂的应用,例如单细胞组学。 DL 模型已广泛用于 scRNAseq 研究(例如预处理、聚类、细胞类型识别和data augmentation),并且已显示出对传统方法的显着改进 10,表明此类方法在 ST 分析中的潜力。此外,DL 模型可以利用多个数据源(例如图像和文本数据)来学习一组任务。鉴于空间分辨的转录组学本质上是多模态的(即它们由图像和基因表达计数数据组成)并且下游分析由多个任务组成(例如聚类和细胞类型检测),研究人员一直在寻求开发 ST 特定的 DL 算法。
空间解析转录组学已被用于揭示许多疾病(例如 COVID-19、关节炎、癌症、阿尔茨海默氏症、糖尿病等)中的复杂生物过程。 ST 技术(如 10x 的 Visium)的不断改进和商业化正在导致在各个实验室中得到更广泛的使用。因此,需要可扩展且与平台无关的计算方法来准确和稳健地分析 ST 数据。到目前为止,DL 方法在处理空间分辨转录组学的规模和多模态方面已显示出可喜的结果。但是,该领域中基于深度学习的模型仍处于初期阶段。与 scRNAseq 分析类似,我们预计将在不久的将来开发一套 DL 模型,以解决空间组学领域的许多紧迫挑战。本综述旨在概述为 ST 分析开发的当前最先进的 (SOTA) DL 模型。由于基于 NGS 的 ST 技术的潜力和可及性,我们主要关注为这些技术开发的方法和技术。
生物学背景
单细胞空间技术原理
![](https://img.haomeiwen.com/i18814178/e55fecaa6e11e811.png)
空间转录组分析流程(软件我都分享过,大家可以查阅)
![](https://img.haomeiwen.com/i18814178/dd26b12aa0268838.png)
MACHINE LEARNING AND DEEP LEARNING BACKGROUND
随着现在定义的技术,接下来描述用于分析 ST 数据的常见机器学习 (ML) 方法。 首先讨论 ML 和深度学习 (DL) 模型的算法开发,然后讨论用于空间解析转录组学(和 scRNAseq 数据)的常见架构。
ML 是指计算机算法通过从原始数据中提取模式和特征来获取知识的能力。 所有 ML 算法都依赖于数据,这些数据必须在使用方法之前可用,以及定义的数学目标。 ML 模型的生命周期包括两个阶段,即训练和评估。 在训练期间,ML 算法分析数据以提取模式并基于优化其目标(称为损失函数)调整其内部参数。 在评估(或推理)阶段,经过训练的模型对看不见的数据进行预测(或执行其训练要做的任务)。
机器学习算法有两种主要类型:监督和无监督。如果 ML 算法利用没有任何标签的原始输入来优化其目标函数(例如 K-Means 聚类算法),则它被认为是无监督的。相反,如果一个算法在训练中同时使用原始数据和相关的标签(或目标),那么它就是一种监督学习算法。监督学习是 ML 最常见的形式。 scRNAseq 分析中监督学习的一个例子是使用先前的注释对细胞亚群进行分类:这需要一组标记的细胞类型用于训练(可用的注释),一个用于计算学习统计数据的目标函数(“teaching”模型),以及测试数据,用于测量模型在以前从未见过的数据上预测细胞类型(标签)的能力(即模型的普遍性)。监督学习的另一个常见示例是回归,其中模型预测连续值,而不是在分类中输出标签或分类值。对于监督任务,模型在大部分数据(称为训练集)上进行训练,然后在保留数据(测试集)上进行评估。根据我们数据集的大小,还可以有第三个数据拆分,称为验证集,用于衡量模型在整个训练过程中的性能以确定提前停止:提前停止是我们决定停止训练的时间一个模型,因为它在训练集上过度拟合(或过度优化)。对训练数据的过度拟合会恶化模型在未见数据上的泛化性,而提前停止旨在避免这种情况。除了监督和无监督算法之外,还有半监督学习,其中模型使用监督和无监督任务的混合,以及自我监督,其中计算机算法生成新的或额外的标签以改进其训练,或学习新任务。
原始实验数据通常包含噪声或其他不需要的特征,这对 ML 算法提出了许多挑战。因此,通常需要仔细预处理数据或依赖特定领域的专业知识,以便将原始数据转换为 ML 模型可以从中学习的某种内部表示。然而,深度学习 (DL) 算法旨在仅使用原始数据来自动提取和构建学习手头任务所需的有用表示。从广义上讲,DL 模型能够通过构建概念层次结构从观察中学习,其中每个概念都由其与更简单概念的关系来定义。概念(和学习)层次结构的图形表示将由许多层组成,许多节点和边连接顶点,有点类似于人类的神经网络。该图被称为人工神经网络 (ANN)。 ANN 由相互连接的节点(“人工神经元”)组成,这些节点类似于并模仿我们大脑的神经元功能。如果一个人工神经网络由许多层组成——通常超过三层,则它被认为是一个深度学习模型,因此被称为深度模型。
人类执行的许多任务可以被视为输入和输出集之间的映射。例如,人类可以拍摄周围环境的快照图像(输入)并检测相关对象(输出)。深度学习,以及更普遍的人工智能,旨在学习此类映射,以便对人类智能进行建模。在数学上,ANN 是通用函数逼近器,这意味着,理论上,它们可以逼近任何(连续)函数。 Cybenko 通过证明这种架构在连续函数空间内是密集的,证明了具有任意数量的神经元(节点)和 sigmoid 激活函数的单层神经网络的这一结果(该结果现已扩展到具有多层的 ANN) .虽然构建任意长的单层人工神经网络是不可能的,但已经表明,具有许多层(更深)的人工神经网络通常比具有少量宽(许多神经元)层的人工神经网络学习得更快、更可靠。这使得研究人员能够通过构建简单的非线性层来使用深度网络来学习非常复杂的函数,这些层可以将每个模块的表示(从原始输入开始)转换为更高、稍微抽象级别的表示。
DL 模型逼近高度非线性函数的能力已经彻底改变了许多科学领域,包括计算机视觉、自然语言处理和生物信息学。 DL 正越来越多地融入许多计算管道和研究,特别是基因组学和生物信息学,包括 scRNAseq 和空间转录组学分析。 在以下部分中,我们简要概述了已用于空间转录组学和 scRNAseq 分析的基本深度学习架构。 在下图中,我们展示了以下部分中讨论的架构的图示。 请注意,为简单起见,将所有图卷积网络 (GCN) 归类为 DL 模型; 这是因为 (i) GCN 可以轻松扩展以包含更多层(更深的网络),以及 (ii) 缺乏其他包含 DL 某些元素的现有方法。
![](https://img.haomeiwen.com/i18814178/20f56c2f1d9286db.png)
Feed Forward Neural Network (FFNN)
Convolutional Neural Network (CNN)
Recurrent Neural Network (RNN)
Residual Neural Network (RestNet)
Autoencoder (AE)
Variational Autoencoder (VAE)
DEEP LEARNING MODELS FOR SPATIALLY-RESOLVED TRANSCRIPTOMICS ANALYSIS
![](https://img.haomeiwen.com/i18814178/9dea89af242d58dd.png)
![](https://img.haomeiwen.com/i18814178/6e154eb7b417618c.png)
![](https://img.haomeiwen.com/i18814178/28f341f09fd19cf9.png)
CONCLUSIONS AND OUTLOOK
ST 领域正在迅速发展,每周都会发布新的数据集和分析管道。 生物方法的创新将继续激发算法开发的创造力,重点是基于 ML 的框架。 尽管目前用于 ST 分析的 DL 模型的空间很小,但预计该领域将经历向深度学习模型的范式转变。
这里概述了当前基于 DL 的技术,用于 ST 数据的对齐和整合、空间聚类、点反卷积、推断细胞间通信,以及使用 scRNAseq 数据(有限或没有空间参考)重建空间坐标的方法地图集)。与传统方法相比,提出的 DL 方法具有准确性和可扩展性优势。然而,DL 方法并不总是首选,因为它们的计算成本很高,并且可能缺乏生物学可解释性。随着更多 ST 分析方法的开发,我们相信用于对新模型进行基准测试的标准数据集以及对现有技术的全面准确性和效率分析将对该领域具有重要价值。尽管现有方法在各自的类别中设置了新的最先进技术,但改进的空间仍然很大。在 ST 下游分析中,DL 算法在研究细胞间通讯和空间可变基因鉴定中的应用仍然大多未得到充分探索。鉴于 DL 模型能够从原始数据中提取复杂模式,预计 DL 方法将在解开复杂的生物过程中证明是有用的,有助于在空间环境中识别细胞相互作用和高度可变的基因。
最近的技术进步使研究人员能够利用各种单细胞组学资源来构建多组学数据集,提供对许多疾病和发展过程的全面了解。 随着单细胞分析进入多组学时代,将 ST 数据与其他单细胞来源整合的需求将会增加。 因此,我们预计在基于 DL 的方法的引领下,基于 ML 的数据集成和对齐框架将会增加。 此外,由于 ST 数据的噪声和多模态,对能够解释空间和基因表达数据中的批次效应的方法存在未满足的需求。 鉴于 DL 技术在 scRNAseq 中去除批处理效应的成功,我们预计 DL 模型将广泛用于空间分辨转录组学数据的批处理效应校正
尽管 ST 技术最近才出现,但研究人员已经成功地使用这些技术生成了空间分辨的细胞图谱,为广泛的生物过程和器官提供了新的见解。 这些研究显示了 ST 技术拥有的巨大潜力,但也强调了对可扩展和高效分析工具的需求。 将 DL 应用于 ST 分析仍然是一个快速发展的新兴领域,在推进 ST 领域以及将 ST 数据集与其他组学数据集成方面展示了广阔的前景。
生活很好,有你更好