Single cell RNA-seq data analysi
视频地址:https://www.youtube.com/watch?v=OFW_cQ4vtaY&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=11
空间转录组主要是针对在组织中的mRNA转录谱的研究。现在被广泛应用的观察单细胞定位的仪器有显微镜。现在进行单细胞测序的方法有很多,比如droplets。然后你把你的细胞进行标记,之后测序。
但是组织并不是均一的,上图展示了几个不同的组织,将不同类型的细胞进行染色后你发现组织里包含了各种各样的细胞。即使在肿瘤组织里,也有很多的空间结构。这种空间结构会给我们提供很多有用的生物信息。
现在我们有一些方法可以直接检测到原位组织中的RNA。根据目前现有的方法可以把它们分成如下4类:
这一讲主讲人将主要介绍前三种方法。因为前三种都是基于显微镜技术的。
那怎么检测组织里的RNA呢?最常用的方法是原位杂交。上图的示意图里,灰色的线条是RNA,然后根据靶标RNA设计分子探针(黑色线条),这个分子探针是被标记的,使得你的靶标RNA可以可视化。FISH就是一种基于荧光显色的技术的原位杂交。
上图是RNA scope的方法。这种方法也是针对你的靶向RNA设计探针。你可以同时检测2个以上的RNA靶标。这种探针是“z”字型的,“z”字型的底部结合RNA,而“z”字型的顶部也包含28个碱基,这些碱基是用来放大信号的。这样一来被结合的RNA的信号被放大,更易于观察。
上图是一个例子,左边是整体图,右边是放大的图。这里是同时检测了三个RNA(白色、红色、绿色),从图里的点的密度可以量化这三种RNA里,白色对应的RNA的量是最高的,因为白色点的密度是最大的。
随着技术的发展,又出现了单细胞的FISH。这是一个非扩增的技术。这种方法可以对单个细胞的转录本定量,并且提供空间信息。上图中的每一个点就是一个单个RNA分子。上图有边的是单个细胞,这样就可以看到单细胞里的RNA的丰度和空间分布了。比如上图左边里有两个细胞含有非常多的红色标记的基因,假如红色标记基因是你感兴趣的,那么你就可以初步判断这个基因是不是主要表达在特定细胞里的。这种方法的灵敏度非常高,假阳性和假阴性的比例也很小。因为每一种靶标RNA的探针数量很多,是过量的,如果其中一些不太好,还有其他的可以作为补充。
然而基于显微镜的检测技术是有一定的局限性的,因为很多显微镜能同时检测的荧光数量并不多。比如你有一台不错的显微镜,但是最多只能同时测8种荧光。而你想检测的基因远远多于8种的时候,这种方法就不太合适了。
为了克服上述的技术难题,有些人发明出了上图这个循环染色的方法。很简单:第一轮染色你可以染几种荧光,然后拍照。之后把荧光洗掉,再染其他探针标记的RNA,进行第二轮染色。再拍照。最后把两轮染色的图merge一下。如果你的显微镜特别的差,这种方法倒是可以试一试。
基于上面循环染色的技术是osmFISH(环状单分子荧光原位杂交技术)。来看一张染色图:
这张图,每一轮染色染3个基因,然后把所有的图merge在一起的结果。那么如何分析这图呢?下面是一个示意图:
首先你对你的组织进行染色,然后你要把你的组织里的细胞进行segmentation(分隔),这样有利于你后面的统计。然后把每一个细胞画出边界。最后你会得到一个表,每一个细胞里的每一个基因对应的RNA分子的丰度。很显然,这些步骤里面最重要的一步就是细胞的分隔(segmentation),同时这一步也是最难的。
怎么进行cell segmentation呢?举个例子:上图里DNA用hoechst进行染色,蓝色。再标记出组织里所有的mRNA。众所周知,mRNA有polyA尾巴。所以你只需要设计针对polyA尾巴的探针就可以标记出所有的mRNA。绝大部分的mRNA是在cell body里,所以你可以分清楚两个细胞的边界在那里。(这里注意,如果是脑组织可能会不一样,细胞和细胞之间没有这么紧凑)
还有一种方法,如果你的组织样品里的细胞是一个紧挨一个的,像上图一样。你可以对细胞膜进行染色。
在你进行细胞分隔以后,你就可以对每一个细胞里的你检测的RNA丰度进行定量了。上图显示,你会得到一个表,这个表长得和scRNA-seq的表差不多。之后你可以做的事情和单细胞测序一样,比如聚类,下图的热图就是标记的33个基因在不同细胞群里表达的情况:
再比如说,tSNE降维:
最后在回到最开始的完整图,这样你就知道每一个细胞群大概来自组织的哪个部位:
这种Cyclic smFISH技术的分辨率大概是150~300纳米之间。检测效率是100%!!!每一轮染色后洗掉荧光,再染第二轮,会损失掉大概2%-5%的dots,不过这种损失可以忽略不计的。但是这种方法会非常费时,如果你要染14轮,你大概要需要50天的时间来进行。而且如果你要检测的RNA丰度很低,荧光亮度会很低。请注意:普通的confocal是不适合这种方法的!你需要更精密的仪器。
接下来主讲人讲了第二种方法进行空间转录组的研究:barcode FISH。这种方法也是将组织染几次,但是这几次染的靶向RNA是一样的,比如上图,第一轮染了9种RNA,而第二轮染的还是这9个靶标。区别是两轮用的barcode的颜色是不一样的,但有可能一样。这样把两次染的图片merge在一起,根据两个barcode的颜色组合,就可以分辨出哪个RNA在组织中的哪个部分了。这个方法有什么优点呢?
这种方法的好处是:你可以在几轮染色后染成千上万个基因。它根据不同的barcode的排列组合来决定的。像上图。这种方法的分辨率也是150300nm之间,但是效率只有70%90%之间。
接下来就是第三种方法:原位测序。这种方法与前两种不同的地方是它是基于测序方法的,尽管分子还在组织中,仍然可以进行测序,而不是把它们放进illumine的机器进行测序。这种方法使用一种“挂锁”状的探针(上图),然后你把这个“锁状”的环扩增,扩增很多很多的copies。
然后你用你的测序探针放入进去,4种碱基分别有4种颜色,比如A是红色,那么如果你检测到了红色,说明这个barcode的第一个碱基是A。然后你将它洗脱掉,然后再检测第二个碱基。这样的检测进行几轮后,你就知道你的barcode是什么了。
(这一段讲的确实太乱,还是看一下发明这个技术的实验室做的视频吧,下面我截了几个屏,感受一下。视频地址:https://wyss.harvard.edu/technology/fluorescent-in-situ-sequencing-fisseq/):