10X空间转录组利用空间位置的个性化分析小结
今天领导非让写微信稿,其实我是不太想写的,但是呢,官大一级压死人,所以写的微信稿原版分享给大家,原版是不会有广告什么的,纯粹就是给大家分享一些好的分析点,供大家参考。
10X空间转录组,空间位置带给了我们什么信息?
2020年被Nature Methods评为年度技术的空间转录组,时至今日,陪伴我们科研人员已经快2年了,在这期间,涌现了很多别具一格的分析角度,不断刷新着我们对组织空间理解。对于生物学组织而言,细胞空间位置分布的重要性不言而喻,对于细胞空间分布的研究,也是我们研究发育、疾病等等生物学问题最为重要的课题之一,其中最为关键的是,对于空间位置信息的认知,如何深入挖掘空间上的生物学内容,逐渐成为我们倚重的分析点。
目前对空间转录组位置信息的分析严重不足,典型如Seurat[1],更多的基于每个spot的基因表达信息进行降维聚类等下游分析,几乎完全缺乏对空间信息的处理;也包括一些寻找空间高变基因的软件如SpatialDE[2]、SPARK[3]等,也仅仅是简单利用空间位置寻找基因在空间上的区域变化,完全无法满足科研人员对于组织有序性和不同细胞类型在空间位置上“协作”的研究;尤其对于细胞在空间上聚集的原因与作用,细胞在不同层面的“等级”变化等等,都在不断强调对空间位置信息的挖掘。前人栽树,后人乘凉,就让我们带着对空间位置信息的分析角度,目睹其带给我们的生物学认知。
分析点1、空间位置上的细胞“网络”
什么是细胞“网络”?细胞在空间位置上不是随机出现的,细胞在空间上的定位受到了周围环境以及自身状态的影响,而这种影响的结果,就是每种细胞类型在空间上形成了具有区域偏好性的细胞“网络”,在文章Spatial mapping reveals human adipocyte subpopulations with distinct sensitivities to insulin[4]中,为了系统的确定白色脂肪组织(WAT)的细胞区域“网络”,计算了每种细胞类别中的空间位置彼此相邻的倾向,这里我们称之为同型细胞“网络”。文章的分析结果表明,所有免疫细胞、脂肪细胞祖细胞和血管细胞以及成熟脂肪细胞的同型细胞“网络”中都表现出很大的跨度,一些细胞类型几乎横跨整合组织区域,如图:
图片.png- 图1 同型细胞网络
同型细胞“网络”是为了确定单一细胞类型在空间上的分布特点,但为了确定不同细胞类别之间的空间关系,作者利用软件STUtility来执行成对的异型邻域分析,我们称之为异型细胞“网络”,用来衡量不同细胞类型之间的空间临近关系。如图:
图片.png- 图2 异型细胞网络
作者的研究发现,代表较大血管结构的Spot在血管样组织学特征上彼此靠近;并且发现特定祖细胞位于巨噬细胞附近并形成用于组织修复和重塑的脂肪生成生态位。
分析点2、探索细胞“单元”
什么是细胞“单元”?一个细胞“单元”的组成包括目标细胞类型和围绕在其周围的细胞类型,这几种细胞类型关系密切,相互合作行使一种重要的生物学功能,也就是说,细胞“单元”指行使某项特殊的生物学功能的细胞“团队”,在文章Identification of HSC/MPP expansion units in fetal liver by single-cell spatiotemporal transcriptomics[5]中,作者在研究细胞共定位的时候发现,多能祖细胞的周围显著富集巨噬细胞和内皮细胞,如图:
图片.png- 图3 细胞“单元”
文章通过分析空间位置的临近细胞通讯,证明了多能祖细胞和周围富集的细胞类型之间形成频繁的“互动”,鉴于多能祖细胞点间的特征在于细胞之间的空间接近性和丰富的交互信号,由此将多能祖细胞与周围显著富集的细胞类型定义为细胞“单元”,其中多能祖细胞位于点的核心并与周围的生态位细胞细胞类相互作用,支持并促进了多能祖细胞的扩增。
分析点3、CNV事件的空间图谱
我们在研究肿瘤样本的单细胞数据,CNV分析是必不可少的一环,基因表达现在广泛运用于推断单细胞中的 CNV,识别染色体 (chr) gain和loss的区域。但是对于研究而言,仅仅知道发生的CNV事件远远无法满足我们对肿瘤组织的认知,肿瘤内部空间异质性的信息随着组织解离也无法重现,所以,文章The spatial landscape of clonal somatic mutations in benign and malignant tissue[6]通过特有的计算方法--iCNV分析空间转录组数据,构建CNV事件的空间图谱,如图:
图片.png- 图4 空间CNV图谱
空间CNV的图谱,主要基于一下考虑:(1)基因组不稳定性如何在组织学上的良性组织中出现,这可能代表癌症进化的早期事件;(2)CNV事件和频率的空间分布;(3)空间CNV事件的分布与活性,组织区域的CNV事件分布与活性差异很大,CNV事件的空间图谱有利于我们对疾病的认知和诊断,甚至治疗。空间 iCNV 分析可以提供基因组完整性的CNV图谱,确定某些具有增加 iCNV 活性的区域,文中的分析结果发现大部分组织区域的随即拷贝数(stochastic copy number,CN)是中性的,这表明 iCNV 可以识别感兴趣的组织区域,尤其是肿瘤趋向恶性组织区域,弥补形态学和表达分析上的分析不足。
分析点4、空间细胞密度
组织是一个有序的细胞结构,细胞不会随机出现在组织的各个区域,而是严格按照空间位置进行分布,当然,受到周围细胞环境的很多影响,文章Spatially-resolved transcriptomics analyses of invasive fronts in solid tumors[7]在研究肝内胆管癌(ICC)的分析中发现,ICC 患者的四个区域位点的细胞组成和空间分布高度异质。不同区域在空间上具有不同的组织结构,由不同的主要细胞成分组成。在肿瘤组织中,成纤维细胞、巨噬细胞和 B 细胞是最丰富的细胞,几乎占所有细胞成分的一半,如图:
图片.png文章的分析具体而言,在肿瘤组织中检测到的成纤维细胞百分比高于其他三个区域,这意味着 ICC 肿瘤组织的高度促纤维化特性;与邻近正常组织相比,肿瘤组织和边缘区域的耗竭T细胞和细胞毒性T细胞的比率更高,表明 T 细胞的抑制状态和随后的肿瘤微环境中的癌症免疫逃避。
说了这么多,其实都还是空间转录组技术带给我们的冰山一角,对于空间信息和转录组信息的挖掘远没有停止,随着研究的不断深入,相信一定会有更多、更加一阵见血的分析角度来加快对生物学问题的认知,更加有效的手段解决我们的生物学问题。
[1] Yuhan Hao et al.Integrated analysis of multimodal single-cell data.Cell.Volume 184, ISSUE 13, P3573-3587.E29
[2] Svensson V, Teichmann SA & Stegle O (2018) SpatialDE: identification of spatially variable genes. Nat Methods 15: 343–346.
[3] Sun S, Zhu J & Zhou X (2020) Statistical analysis of spatial expression patterns for spatially resolved transcriptomic studies. Nat Methods 17: 193–200
[4] Jesper Bäckdahl et al.Spatial mapping reveals human adipocyte subpopulations with distinct sensitivities to insulin.Cell Metabolism 33, 1869–1882
[5] Suwei Gao et al.[Identification of HSC/MPP expansion units in fetal liver by single-cell spatiotemporal transcriptomics.Cell Research (2021) 0:1-16
[6] Andrew Erickson et al.The spatial landscape of clonal somatic mutations in benign and malignant tissue.Biorxiv.
[7] Liang Wu et al.Spatially-resolved transcriptomics analyses of invasive fronts in solid tumors.biorxiv
最后补充一点数学知识
基于熵概念的一系列指标是机器学习方法中经常使用的。这里统一做一个全面的整理。(以离散随机变量形式给出)
熵
随机变量,熵为
是其平均不确定性的度量。
联合熵
随机变量,的联合分布为,两者的联合熵为
条件熵= 条件下的的熵为
图片.png条件熵是(|=)关于的平均值
图片.png
一对随机变量的熵,等于其中一个变量的熵,加上另一个的条件熵
图片.png
进而可推断得到熵的链式法则
图片.png
信息增益
对样本总体(样本量)有多个类=1......,则样本集的信息总和为(类似总体随机变量的熵)
对样本集进行分组-1...,各组的信息量为
图片.png
各分组的信息总和则为
图片.png
而 = '称信息增益,即分组后对信息的贡献程度。 图片.png
生活很好,有你更好