生信分析工具包免疫浸润生物信息学常用方法总结

Week3— 对混合细胞类型的转录组数据去卷积 (综述)

2018-06-11  本文已影响200人  六六_ryx

原文: Computational deconvolution of transcriptomics data from mixed cell populations,Bioinformatics,2018 Jun 1;34(11):1969-1979.
doi: 10.1093/bioinformatics/bty019

概述

这是2018年新发表在Bioinformatics的一篇综述,分别从以下9个方面对混合细胞类型的转录组数据去卷积的相关问题和方法进行总结和讨论。

去卷积问题的定义

去卷积的目的是从bulk-sample 中推测不同单一细胞类型的表达谱。它的原理是假设每种细胞类型在不同样品中具有相似的表达水平,可以将异质样品中给定基因的表达模型化为混合物中存在的每种细胞类型的表达值的加权和(=线性组合)。
有点绕口,以数学形式表示如下:
T = 异质样品的表达值
C = 特定细胞的表达值
P = 不同细胞的混合比例
T = C·P
根据已知的数据类型,去卷积有不同的形式:

T = matrix containing the observed (measured) expression values from heterogeneous (tissue/tumor) samples (M genes, N samples);
C = matrix consisting of cell type- specific average expression values (M genes, K cell types);
P = matrix containing the mixing proportions (=relative composition) (K cell types, N samples)

  1. 只有T是已知, C和P都是预测的(深灰色箭头所示);
  2. T和C是已知的,P是预测的 (粉色虚线箭头和灰色热图所示);
    这种情况是通过T和C以富集值(代替细胞比例)表示组织异质性的相对评估,如ESTIMATE和xCell等工具包。细胞比例值必须是0-100之间的正值,可以直接解释;富集值是无限的,有时是负值,使得它们更难解释。
  3. T和P是已知,C是预测的(虚线蓝色箭头所示)

解决去卷积问题的数学方法

  1. 最常用的一组方法称为普通最小二乘法(OLS),线性最小二乘法(LLS)或简单最小二乘法(LS),其目标是最小化平方和。
  2. 第二组方法是线性核(n-SVR)支持向量回归方法,包括CIBERSORT 和 ImmuCC。
  3. 第三组无监督降维,如主成分分析(PCA)。
  4. 第四组完全无监督方法,包括无监督的非负矩阵分解(NMF或NNMF)和不同的贝叶斯方法。

选择特定细胞类型的标记基因的方法

标记基因选择一是基于这个基因的在特定细胞中的表达显著高于其他类型的细胞,另一个是根据差异基因,即在某个类型的细胞中表达,在其他细胞类型不表达。

鉴定标记基因的方法:

影响去卷积效果的因素

基于监督去卷积的方法,依赖于参考集,样本间、样本内本身的异质性将会对结果产生影响,除此之外还有其他因素,例如:

低比例的细胞类型也可以被检测的方法

PERT (Qiao et al., 2012) 和 DeconRNAseq (Gong and Szustakowski, 2013) 可以检测到的细胞比例最小可以至2% ,CIBERSORT (Newman et al., 2015) 可以至 0.5% 。

评估去卷积效果

传统线性模型的局限性

去卷积的网页版工具

其他数据类型的去卷积方法

根据甲基化数据进行去卷积的,目前的方法有:

根据拷贝数变异:


公布于 2018— 06.11
第三周 2018— 06.04-06.10

上一篇下一篇

猜你喜欢

热点阅读