空间转录组如何寻找感兴趣区域(ROI)
有过计算机视觉和影像组学数据分析经验的朋友,对感兴趣区域(region of interest,ROI)不会感到陌生。感兴趣区域就像它的字面意思一样直白,哪些区域您比较感兴趣?空间表达数据也允许我们在空间信息中找出这个ROI了。那么,在我们空间表达数据中的ROI是什么,有什么意义,如何确定?确定之后如何分析?这些有意思的议题,我们会在这篇文章中探讨。
什么是ROI
在机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域,ROI。在Halcon、OpenCV、Matlab等机器视觉软件上常用到各种算子(Operator)和函数来求得感兴趣区域ROI,并进行图像的下一步处理。这像我们在拿到分群或者富集结果之后说的【您感兴趣的亚群或你关注的通路】是一个意思,就是在一个切片上,哪个区域是您比较感兴趣的?没有无缘无故的兴趣,这个区域往往更接近我们的研究目的。而ROI的目的论本身,也反映了在选定之前它不是一个恒定的区域,如在第一阶段不是ROI的区域,下一阶段可能又是ROI了。所以它是注意力聚焦的一种,虽然我们希望在空间上看到异质性,但是有时候为了应用特定的模型不得不需要一个相对均一的背景。在我们单细胞转录组中,ROI可能是:
- 空间上的某亚群
- 亚群的边界区域
- 某基因(集)集中表达的区域
- 轨迹及其沿途区域
- H&E(或荧光) 有特征的区域
如何寻找感兴趣区域(ROI)
基于以上可能,我们利用现有的知识储备,可以寻找ROI的方法有:
- 聚类:找出亚群,根据定义ROI一定是某个区域
- 差异分析或空间高变基因:某基因(集)集中表达的区域
- 通路富集:某通路的基因(集)集中表达的区域
- 图像特征:也就是计算机视觉上的ROI,如可以用imageJ来手动划定区域。
- 空间关系:其实空间上划分出来的区域就是ROI字面意思所定义的。
我们不无惊喜也不无悲伤地看到:寻找感兴趣区域并不是难事,难的是寻找兴趣。我们不禁要问:我们的兴趣在哪,是空间上的一片区域吗?这只是形式,我们感兴趣的是这片区域的特征(features)。不难发现所有识别ROI的方法都是在寻找某个特征的集合,所以ROI除了字面意思之外,还有特征选择的意思。故此,当我们谈ROI的时候我们谈的是对特征的选择。而兴趣是和期望联系在一起的:与期望相符或相悖都会引发人类的兴趣,比如你看到某些基因就是在右下角某区域表达,而之前的认为是他们应该均匀表达的,好奇心重的人就会产生一种叫做兴趣的东西。所谓格物致知,首先要有对物的格才有知。
寻找出ROI之后
寻找ROI只是手段,不是目的,我们的目的是发现有可解释的生物学规律。当然,我们欢迎做计算机视觉的朋友来帮扶我们更好地寻找ROI,让边缘更加清晰,让区域的特征更加明显。如现在有一种技术叫感兴趣区域池化(Region of interest pooling,RoI pooling),我觉得把空间上基因表达作为特征(相当于一个像素点下有近两万个基因表达),RoI pooling 可以提供一种手段来训练出目标特征(班门弄斧了啊)。目前的做法是先找区域(分群)再赋予群的意义,为什么不能先有意义再寻找区域呢?
往大了说,其实一个切片本身就是一个ROI,不感兴趣谁花大贵价钱做空转呢?
这里我们举一个例子来说明寻找出ROI之后如何与传统的分析工具结合到一起。ROI与另一个ROI的差异分析当然可以的,但是略显单薄。现在我们选定了一个ROI,这个ROI特异性表达500个基因,那么这些基因有什么特点?聪明的,你已经意识到可以做WGCNA。之前拿那么多基因一起做WGCNA,其实它们在空间上根本就没有共表达(就是有的在右上角有的在左下角表达),这样找出来的模块在空间上可以得到印证吗?至少,RIO和WGCNA是可以结合的吧。目前还没有人用基因的WGCNA寻找空间高变基因。
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2555436/
https://github.com/edsgard/trendsceek
Identification of spatial expression trends in single-cell gene expression data
Region of interest analysis for fMRI