单细胞流程

生信分析 单细胞多组学数据无偏整合新策略

2021-01-25  本文已影响0人  概普生信

Unbiased integration of single cell multi-omics data

单细胞测序技术极大的推进了研究人员对发育、衰老、疾病等过程的认知,从细胞水平能够更好地理解基因如何影响细胞表型,进而影响个体的表型,具有重要意义。然而,目前的大部分测序技术仅能够较好地捕获单一组学层面的遗传信息,对于转录组、表观组、蛋白质组等多组学的信息往往不能同时获得,为了得到一个细胞的多组学信息,研究人员尝试建立相同生物样本不同组学数据之间的联系,将多个组学的数据整合到一起,更好地刻画细胞功能以及内部的调控过程。美国安德森癌症研究中心的团队开发bindSC,一个强大的单细胞多组学数据整合工具,该文章于2020年12月发表在bioRxiv上。

一、方法简介

先前的计算方法主要分为两个类别:(1)依据经验选择特征基因,然后整合两个数据集;(2)对每个数据集矩阵分别进行降维,进而进行无监督的流形对齐。以scRNA-seq和scATAC-seq数据整合为例,第一类方法通过计算每个基因内部和邻近区域的DNA reads数目,为每个基因构建基因活性矩阵。该策略仅考虑基本的顺式调控关系,而忽略了通过增强子等其他调控元件远端调控关系,简化甚至丢失了转录因子与目标靶基因之间的多因素关系。目前已有的整合策略当中,Seurat应用CCA和MNN识别锚定两个数据集的细胞; LIGER使用iNMF来区分数据集共享的和特异的基因特征;Harmony使用PCA将细胞投影到较低的共享维度中,并反复迭代以删除批处理效应。这三种方法均受到上述限制,因此无法构建一个全面、无偏的基因调控网络。第二类方法是完全无监督的、不要求先验特征基因的方式,例如MATCHER,然而在很大程度上依赖于以下假设——每个数据集中细胞间的特征变异仅仅受几乎很少的潜在变量驱动,但是在涉及分化、重编程、转分化等复杂的生物学过程经常与这一假设相矛盾。

作者开发了新的计算工具bindSC(bi-order integration of single-cell data),核心算法为bi-CCA(bi-order canonical correlation analysis),将相同生物样本不同实验产生的数据集(矩阵)之间建立最优的行、列比对关系,该方法以开源R包的形式发布在https://github.com/KChen-lab/bindSC。

二、基本思想及原理

BindSC的workflow包括以下五个基本步骤(如图1):(1)每个数据集的预处理,特征基因选择,无监督细胞聚类,聚类结果用于下游的分析。(2)初始化数据集之间的特征匹配,因为两个数据集之间的特征大部分是不同的,需要额外的一个转移矩阵来连接两个数据集。(3)采用bi-CCA算法同时捕获矩阵行、列的相关性信息,不断迭代以优化转移矩阵,最终得到稳定的细胞相关性与特征相关性结果。(4)基于共享近邻策略联合聚类,并将类别中距离相近的细胞融合成一个大的“伪细胞”,构建伪细胞水平的多组学特征矩阵。目前支持的组学数据类型包括转录组、表观基因组、空间转录组、蛋白质组四个组学信息的整合。

图1

三、方法评估

(一)仿真数据评估

作者构建了模拟的仿真数据集,包括1000个基因、由三种“细胞类型”组成的1000个细胞(信噪比0.25),在模拟的仿真数据集中观察bindSC的性能,依据轮廓系数、比对混合得分两个指标与CCA、Seurat、LIGER、Harmony方法进行比较(如图2),发现在不同的错误比对率(MR,Misalignment Rate)下bindSC均具有最佳性能。

图2

(二)转录组+表观遗传组整合:肿瘤细胞系

在地塞米松处理不同时间的A549细胞系数据中评估方法性能,6005个细胞进行sci-RNAseq,3628个细胞进行sci-ATACseq,其中1429个细胞同时具有两个组学的数据,因此作为评估过程中的金标准。图3a上表示细胞的收集时间,图3a下表示测序技术,灰色为sci-RNA,棕色为sci-ATAC。从轮廓系数、比对混合得分、锚定距离三个指标观察bindSC具有最优的性能(图3b),作者进一步比较每种方法对于TF-gene对、 cis-peak-gene对、trans-peak-gene对这三者的基于斯皮尔曼秩的相关性系数(SRCC,Spearman's Rank-order Correlation Coefficients),结果显示bindSC具有最高的准确性(图3c)。

图3

(三)转录组+表观遗传组整合:小鼠视网膜细胞

使用10x Genomics ATAC + RNA kit对成年小鼠视网膜样本进行测序,共计9383个高质量细胞,分别使用转录组与表观组数据进行聚类识别细胞类型(图4a-c),之后应用bindSC成功地将不同组学的相同细胞类型整合到了一起(图4d-f),对于其中一类较为稀有的细胞类型(细胞丰度0.25%)采用多种方法进行10个细胞亚型间整合(图4g-j),尽管ATAC数据集不如RNA数据集细胞注释结果清晰,但不难发现Seurat和LIGER方法难以产生有意义的结果,Harmony只获得了有限的几种亚型。综上所述,bindSC比以往的任何一种方法均具有较高的精确性。

图4

(四)转录组+空间转录组

bindSC能够整合sc-RNAseq数据和空间转录组数据,作者使用相同小鼠脑部额叶组织的SMART-Seq2数据和10x Visium空间转录组(ST)数据,ST数据中1072个位点,sc-RNAseq数据中14249个细胞(图5a-b)。使用不同策略整合sc-RNAseq数据与ST数据,考虑到每个空间位点可能包含多种细胞类型,作者基于降维后维度计算概率得分以代替每个位点的细胞组成比例,计算这种细胞组成比例与sc-RNAseq真实值之间相关性,发现bindSC具有最高的相关性(图5c,R = 0.9)。

图5

(五)转录组+蛋白质组

整合蛋白质组学数据:作者使用人类骨髓细胞的CITE-seq数据(30627个细胞)以及25个抗体相关的蛋白质数据,分别进行细胞类型注释(图6a-b),然而仅仅依靠着25个抗体蛋白及同源基因的RNA表达水平并不能够很好的区分细胞类型(图6c),bindSC能够将蛋白质信息与RNA信息很好的整合到一起(图6d-e),并且具有优于其它方法的锚定距离(图6f)。

图6

最后,感谢大家的阅读和欣赏,如有更多生信问题请关注:

生信分析意向表 http://gaptechsxr.mikecrm.com/1vdMmqy

更多生信人分析:生信人

上一篇下一篇

猜你喜欢

热点阅读