单细胞数据挖掘的起点:你的单细胞数据中到底有哪些细胞类型?
单细胞转录组测序技术的普及,为生命科学的研究提供了全新的手段。基于高通量单细胞转录组测序,既能发现特定组织中可能的细胞类型,也能了解不同细胞组成上的差别,更能通过基因表达图谱,剖析不同细胞的基因特征,为理解细胞的功能提供了数据支持。但是,单细胞研究并没有想象中的那么简单,从细胞解离,数据分析,到数据解读,只有把每一步都做好了,才有可能有好的成果产出。
在这个过程中,最最重要的是,单细胞数据中到底能识别到哪些细胞类型?这是整个单细胞数据挖掘的起点,也是决定整个单细胞故事的关键,怎么能把这个过程做好呢?
首先,我们要大概知道做的单细胞测序的样本,可能存在哪些细胞类型,如肿瘤里可能有恶性细胞,上皮细胞,免疫细胞等。其次,这些可能在数据里出现的细胞类型,有哪些标准的、业界公认的marker呢?
01 整理收集实验室前期的研究基础
相信各位研究某个具体领域的老师们,自己对该单细胞实验的样本还是比较了解的。作为课题组研究方向的实验材料,经过多年的研究和积累,该组织中可能存在哪类主要类型的细胞,它们的标志性marker有几个,是哪几个,还是烂熟于心。因此,只需把这些细胞类型和对应的marker整理出来,结合单细胞分群数据的marker表进行匹配,就能知道自己做的样本中存在哪些类型。当然,这个过程中可能会出现一种情况:用已知的marker进行匹配后,大部分的细胞类型都找到了,但是有些细胞类型,无论用哪种marker,都匹配不上。这时,大家无需焦虑和担心,应该高兴。因为您有可能发现了一种新的细胞亚型,一类之前大家从来没发现过的,可能具有重要生物学功能的细胞类型。
02 查阅文献整理相关细胞类型marker
文献是所有科学研究成果的最终展示形式。因此,调研本研究领域最新的研究进展,特别是单细胞测序相关最新的文章。在这些文章中有哪些细胞类型?哪些细胞是用哪些基因进行分类的?这个过程中,可能也会遇到一些问题,比如:同样的组织的单细胞文章,同一个细胞类型,不同文章会用到不同的marker。这种情况下,建议把这些marker都收集下来。同时,也要多研究下,该文章为什么用这个?参考来源是什么?
03 通过相关数据库找到特定细胞类型的marker
由于单细胞技术的发展,科学家们已经对大部分的组织类型进行了研究。因此,很多专门的数据库对不同的组织类型,细胞类型,对应发现的marker进行整理,常见的marker数据库如下:
Cellmarker:http://bio-bigdata.hrbmu.edu.cn/CellMarker/
HCA:https://www.humancellatlas.org/
CancerSEA:http://biocc.hrbmu.edu.cn/CancerSEA/
通过以上几种方式,基本可以拿到常规的组织样本中的细胞marker信息,基于此对自己的单细胞数据进行匹配分析,我们就能知道自己的组织中有哪些具体的细胞类型,各自占比多少。进一步通过更加深入的亚群分析,组间比较和功能挖掘,一篇不错的单细胞文章就出来了。