单细胞数据科学四大过程组两大知识领域与三重境界
很多朋友问是如何保持阅读量的,其实,大部分是之前的存货。有一部分是每有会意,把之前的旧书拿出来再翻一翻,做个导图放上来的。今天,我想和大家分享一点最近对单细胞数据科学的理解,总结为一句话:
单细胞数据科学四大过程组两大知识领域与三重境界
说到单细胞数据科学,不得不回忆起2020年的一个无名的夜晚,那一晚无意间浏览到一篇文章:
Eleven grand challenges in single-cell data science ,Lähnemann et al. Genome Biology (2020) 21:31
这是我第一次知道有单细胞数据科学这一概念,后来以single-cell data science(SCDS)作为关键字,做过几次检索,也读过几本数据科学的书籍,这个概念慢慢明晰起来。当别人在讨论单细胞数据分析、生信分析、数据挖掘的时候,我开了一个单细胞数据科学专栏。在单细胞生信分析到单细胞数据科学的过渡中,有一篇文章不得不提:
Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.
在这篇文章中,作者提出了单细胞数据分析的最佳实践,也奠定了目前大部分单细胞数据分析的基本框架:
不管哪家公司做的数据分析,不管是哪个平台的单细胞数据,数据分析的基本流程逃不过这个流程。
现在看来,虽然这两年单细胞技术也在发展,数据分析工具依然层出不穷,但是2020年的时候,数据分析的基本框架基本形成。这两年大家基本上是在反刍前人的理念。
这并不妨碍我们依然可以发现许多新的见解,如任老师在一次访谈中提出:
- monocle把单细胞从分析离散的亚群推向刻画发育的连续性。
- RNA velocity 把绝对定量扩展到可变剪切。
- scomap把组织解离损失的空间结构找回来
书读百遍,其意自见。下面就来分享一下:单细胞数据科学四大过程组两大知识领域与三重境界。
四大过程组
单细胞数据科学的过程主要是:
-
产生矩阵。成熟的细胞解离、分离、细胞标记、核酸捕获、二代测序,为获得高通量的单细胞表达矩阵提供了保证。也是单细胞数据科学的第一个过程组,也可以唤作实验过程组。这个过程组中可以选择不同通量、不同平台。
-
探索数据。获得单细胞矩阵之后,接下来是简要探索一下数据的基本表现,正所谓:降维聚类,必知必会。这个过程组中,最基本的品格是:探索时贪婪。从不同侧面观察数据,选取不同特征表现数据,不同分组间差异基因分析。数据探索的方法流程都比较成熟,如R语言生态下的Seurat,python生态下的scanpy,不需要太多的生物学背景。
-
推断分析。与数据探索不同,推断分析需要分析者具备一定的生物学背景,这样的推断才是有方向的,也才是有益的。推断过程组可以分为两个小方向:细胞方向的细胞轨迹、基因方向的调控与通路。
-
多方验证。随着单细胞技术的发展,单细胞数据往往需要和其他技术或组学相互结合与验证。此过程组的基本品格是:探索时贪婪,验证时谨慎。
两大知识领域
单细胞数据科学可以分为两大知识领域,一个是细胞层面的细胞生物学,一个是基因表达或者表观的高通量多组学。
- 细胞层面的细胞生物学,可以说是连接的是细胞表型,如细胞类型、细胞图谱,细胞之间的关系。推荐的书籍有《细胞生物学》、《细胞》、《癌生物学》、《医学免疫学》等。
- 基因表达或者表观的高通量多组学,可以说是连接的是分子机理,往往指向的是基因表达调控的特异性。推荐的书籍有《细胞分子生物学》、《基因X》、《分子生物学》、《高通量测序技术》等。
这两大知识领域目前都是在不断快速发展过程中,单细胞技术也在促进我们不断拓展这两大知识领域的认知边界。
三重境界
说起三重境界,我们都不陌生。虽然我们已经归纳出单细胞数据科学有迹可循,但是这一点也不妨碍数据科学是一个需要探索、发掘、验证、攀登的科学这一事实。特别是单细胞技术在如此火热的大环境下,不少朋友想吃快餐,昨晚连夜释放的数据,天一亮就从网上复制代码来分析自己的数据。
我们不要忘记单细胞数据科学也有三重境界:
- ‘昨夜西风凋碧树,独上高楼,望尽天涯路’,此第一境也。
- ‘衣带渐宽终不悔,为伊消得人憔悴’,此第二境也。
- ‘众里寻他千百度,蓦然回首,那人正在灯火阑珊处’,此第三境也。”
【降维聚类,必知必会】很简单,能配置分析环境和复制代码就可以。
具备一定的生物学背景之后,【探索时贪婪,验证时谨慎】也不是难事。
但是真正走过四大过程组,谙熟两大知识领域,历尽三重境界方才修得单细胞数据科学家之名。
在节目的最后,作者本人在单细胞数据科学四大过程组两大知识领域与三重境界的基础上,寄语单细胞数据科学新人六大箴言:
- 生信虽好,不要贪杯哦。编程语言先学一门,数据分析技术先学一种,不要并行开搞。
- 相信我,你并不孤独。大部分你遇到的问题,别人都已经遇到过了,并已经解决了,又并写出来发在网上了。
- 基础不牢,地动山摇。虽然单细胞数据下机之后,就处于不断贬值的过程中,但是如果贪快,不求甚解地分析数据,往往会带来无尽的返工。
- 先练兵,再打仗。先学习如何分析数据,再利用学到的数据分析知识,去分析自己的的数据。而不是,数据下机之后,复制网上的代码去跑自己的数据。
- 输出倒闭输入。教,才是最好的学习。学到的要交给别人,赚到的要花出去。
- 读源码,解决实际问题。要勇于,善于阅读源码、原文档、原理。
加油,少年,开卷有益(juan,第一声)。