单细胞数据能解答哪些生物学问题?——进阶单细胞分析
[前言]
单细胞测序技术近年来在生命科学研究中迅速崛起,成为揭示生物复杂性的重要工具。与传统测序方法不同,单细胞测序能够在单个细胞水平上解析基因表达、遗传变异和细胞状态的异质性,从而为我们深入理解生物系统的多样性提供了前所未有的视角。目前,常用的单细胞测序平台包括10x Genomics(图1)、BD
Rhapsody 和Illumina Bio-Rad,国产平台例如华大DNBelab C系列也逐渐崭露头角。
图1. 单细胞测序工作流程(10x)然而,测序数据的复杂性意味着更多的信息难以挖掘,需要借助专门的工具和算法才能提取出有意义的生物学信息(图2)。在实际的分析和具体应用中,我们经常遇到的问题是:细胞注释之后,围绕单细胞数据,我们还能做些什么?如何让单细胞数据给我们解答更多的生物学问题?从最基础的细胞聚类分析,到差异基因表达的识别,再到更深入的轨迹推断和通讯研究,单细胞高级分析五花八门,到底哪些才是我们真正想要的?
图2. 常见的单细胞高级分析[细胞cluster相关性细胞Cluster相关性——不同细胞簇之间相关程度如何?]
细胞Cluster相关性分析是一种评估不同细胞聚类(Cluster)之间基因表达相似性的重要方法,用于了解各个细胞群体在基因层面上的相互关系。通过分析不同Cluster之间的基因表达相关性(pearson系数),可以揭示细胞群体在功能上是否具有相似性、进化上的关联,或者是否共享某些生物学特性。 分析的关键步骤之一。通过将某一类型的细胞(例如B细胞或T细胞)单独挑选出来,并进一步划分为不同的亚型,深入研究细胞内部的异质性。使用UMAP等降维算法可以有效将高维数据投射到二维平面上,使得不同细胞亚群的分布更为直观清晰。为了进一步解析这些亚群的特性,通常会计算和可视化特定的marker基因。这些基因是每个细胞亚群的标志,可以帮助我们识别这些亚群的生物学功能和特征。
图3. 细胞cluster相关性热图[细胞亚群细分聚类细胞亚群细分聚类——重要细胞类型再分亚群效果如何?]
在单细胞测序中,细胞亚群分类是数据分析的关键步骤之一。通过将某一类型的细胞(例如B细胞或T细胞)单独挑选出来,并进一步划分为不同的亚型,深入研究细胞内部的异质性。使用UMAP等降维算法可以有效将高维数据投射到二维平面上,使得不同细胞亚群的分布更为直观清晰。为了进一步解析这些亚群的特性,通常会计算和可视化特定的marker基因。这些基因是每个细胞亚群的标志,可以帮助我们识别这些亚群的生物学功能和特征。
图4. 细胞亚群细分聚类[拟时序分析——细胞动态分化和时序变化如何?]
拟时序(pseudotime)分析,又称细胞轨迹(cell trajectory)分析,用来揭示细胞在不同发育或分化阶段的动态变化。通过将不同细胞亚群基因表达量排序,拟时序分析能够推断出单个细胞在特定生物过程中所处的“时间点“。利用monocle2/monocle3,我们可以将数千个细胞的数据投射到一个假定的时间轴上(通常用颜色渐变来表示,从起始状态的“早期”细胞到终末状态的“晚期”细胞)。可以看到,随着时间推移,细胞沿着特定路径逐渐演变,这一演变通常对应着细胞在生物学过程中的发育或分化进程。另外,拟时序分析还可以识别细胞命运的“分支点”。在细胞分化过程中,细胞可能会根据不同的基因表达模式选择不同的发育路径,从而形成多个不同的亚群。在图中,这些分支点表现为细胞轨迹的分叉位置,每个分叉处标志着一种潜在的分化决定。
图5. 拟时轨迹曲线图(monocle2) 图6. 基于拟时间变化的差异表达 图7. 拟时轨迹曲线图(monocle3)[细胞通讯分析——细胞之间如何通过分子信号相互影响?]
多细胞生物的细胞与细胞之间往往会通过细胞因子和膜蛋白等进行通讯,从而调节生命活动,保证生命体高效、有序的运作。其中,受体-配体介导的细胞间通讯对协调发育、分化和疾病等多种生物学过程至关重要。细胞通讯分析通过统计不同细胞类型中受体和配体的表达及配对情况,推断不同细胞之间的相互作用。通过分析工具(如CellPhoneDB、CellChat),我们可以从单细胞测序数据中提取每个细胞的基因表达谱,并在这些数据中寻找与已知配体-受体对相匹配的表达模式。通过计算不同细胞群体之间的表达相关性,推断它们可能存在的信号传递途径。图中的点越大,颜色越深,意味着该配体-受体对在特定细胞类型中表达越强,强调它们在细胞间通讯中的重要性。
图8. cellchat通讯强度网络图 图9. CellphoneDB通讯频数热图[单细胞CNV分析——是否可以通过拷贝数变异说明不同细胞群异质性?]
拷贝数变异(Copy Number Variation,CNV)分析是一种用于检测基因组结构变异的重要手段,尤其是在癌症研究中,这类变异通常与肿瘤发生和进展密切相关。在单细胞CNV分析中,基于每个细胞的基因组覆盖率,分析工具(如InferCNV、CopyKAT)会将测序深度归一化到全基因组范围内,接着通过对比参考基因组,计算出拷贝数的变化模式。如下图所示,热图颜色从蓝色到红色的变化分别代表了基因组区域的拷贝数缺失和扩增,进而识别出哪些染色体片段在特定细胞群体中发生了拷贝数变异。此外,单细胞CNV分析能够帮助我们识别肿瘤微环境中的正常细胞和肿瘤细胞。通过将肿瘤细胞中普遍存在的拷贝数变异与正常细胞的基因组稳定性进行比较,可以精确定位肿瘤的核心遗传变异,同时揭示出不同亚群之间的异质性。
图10. 染色体水平上的CNV热图[单细胞GSVA分析——每种细胞群显著富集功能有哪些?]
单细胞基因集变异分析(Gene Set Variation Analysis, GSVA)是一种无监督的基因集富集分析方法,在单细胞测序中可以评估不同细胞或细胞群体的功能状态和生物学过程的活跃程度。GSVA分析通过计算特定基因集在每个细胞中的富集程度,来判断某个生物学通路在不同细胞中的活跃情况。这在研究细胞分化、免疫反应以及疾病进展中的功能变化时尤为重要。
图11. 细胞群层次GSVA score热图[RNA速率分析——RNA分子的“去”与“留”?]
RNA的速率,即基因表达状态的时间导数,通过测量细胞中RNA的合成和降解速率,来推断基因表达的动态变化,帮助我们深入理解细胞内转录调控机制,揭示在不同细胞状态下基因表达的时空动态,例如在细胞分化过程中,哪些基因在何时被激活,哪些基因表达被迅速抑制。RNA速率分析的核心在于区分每个细胞中的“新生RNA”和“成熟RNA”。新生RNA是刚刚被转录出来的未成熟RNA,通常还没有进行剪接,而成熟RNA则是已经完成加工、准备被翻译的RNA分子。通过将新生RNA与成熟RNA的比例进行比较,可以推断出该基因在不同时间点的合成和降解速率。常用的分析工具如Velocyto能够根据单细胞RNA测序数据中的内含子和外显子比率,进行RNA速率的推断。
图12. RNA速率分析(左:按细胞类型;右:按样本)[转录因子调控分析——如何从转录调控方面细粒度分析基因表达?]
转录因子(Transcript Factors,TFs)调控分析的目的是识别出哪些转录因子在特定细胞群体中发挥着核心调控作用。通过研究转录因子及其下游靶基因的表达关系,揭示转录调控网络在不同生物过程中的作用,如细胞分化、发育和疾病发生等。常用的工具如SCENIC能够基于单细胞RNA测序数据,识别潜在的转录因子及其调控的基因模块,进而识别出特定细胞群体中的核心调控因子。
图13. TF与细胞群的t值热图[单细胞转录组代谢分析——不同细胞群之间的代谢活性差异如何?]
单细胞转录组代谢分析是一项创新的技术,用于揭示单个细胞中的代谢活动及其在不同细胞群体中的差异。该分析结合了单细胞RNA测序数据与代谢网络,通过计算代谢通路中基因的表达水平,推断细胞的代谢状态。单细胞转录组代谢分析通常利用代谢网络先验知识,将代谢基因的表达数据与已知的代谢反应相结合,来推断每个细胞中的代谢活性。例如,Compass等工具使用通量平衡分析(Flux Balance Analysis,FBA)来模拟代谢反应,从而在单细胞层面上揭示不同细胞在能量代谢、氧化还原平衡等方面的状态差异。
图14. compass评分差异检测 图15. 代谢反应的差异活性[总结]
从细胞亚群分类、拟时序分析、细胞通讯、到CNV分析、GSVA分析、RNA速率分析、以及转录组代谢分析,我们深入探讨了每种方法的原理及应用。这些技术为科研人员提供了从单细胞层面探索生物学复杂性的新视角,帮助更好地理解细胞间的异质性和功能关系。
微生信助力高分文章,用户220000,谷歌学术4300+