xCellx详细使用方法及结果分析

2021-11-17 本文已影响0人 mope

理论知识：

组织是由不同谱系和亚型的细胞类型组成的复杂环境，每种细胞都有自己独特的转录组。因此，批量转录组分析是细胞类型特异性基因表达的总和加权的细胞类型比例在给定的样本。去卷积的基因表达谱允许重建组织的细胞组成。Xcell 是一个强大的计算方法，转换基因表达谱为丰富分数的64免疫和基质细胞类型跨样本。
不同受试者细胞类型组成的差异可以确定疾病的细胞靶点，并提出新的治疗策略。此外，调整这些变异可以检测真正的基因表达差异，并提高解释下游分析。

1.安装xCell

Xcell 是在 r 中开发的，用于运行 xcell 的 r 包可以作为 github 存储库中的开源代码使用 (https://github.com/dviraran/xCell)
安装 r 是一个先决条件(https://www.r-project.org/) ，rstudio 是运行 r 脚本的推荐环境(https://www.rstudio.com/)。
要安装 xcell r 包，下面的所有命令都应该在 r 环境中输入:
如果 devtools 包以前没有安装，首先安装它:

install.packages('devtools')

从 github 安装当前的 xcell 版本:

devtools::install_github('dviraran/xCell')

Xcell 包装依赖于以下包装: 生物导体包装ーGSVA，GSEABase。

if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(c("GSVA","GSEABase"), version = "3.8")

CRAN packages—pracma, utils, stats, MASS, digest, curl,
quadprog.

install.packages('pracma', 'utils', ' stats', 'MASS',
'digest', 'curl', 'quadprog')

以上为xCell说明文档的安装说明，以下为网络上的方法（用以下即可）。

install.packages('Rcpp')                     #########安装各类程序包
devtools::install_github('dviraran/xCell')
library(xCell)

2.输入文件

文件格式：Xcell 的输入是来自人类混合样本的基因表达矩阵。应该在运行 xcell 函数之前读取它。矩阵应该是基因作为行名，列是样本。如果基因表达式是一个标签分隔的文件，可以使用下面的调用来读取它:

expr = read.table(file.name, header=TRUE, row.names=1, as.is=TRUE, sep='\t')

如果基因表达数据来自微阵列，就不需要标准化。如果基因表达数据来自一个测序平台，数值必须被归一化为基因长度(例如，rpkm，tpm，fpkm)。Xcell 使用表达式级别排序，而不使用实际值，因此进一步的规范化不会产生影响。

3.xCell Pipeline

Xcell 管道由三个步骤组成，它们在 r 包中也表示为函数:

1. rawEnrichmentAnalysis

xCell.data$genes

作为最低要求，输入基因表达矩阵至少需要5000个基因，但共用基因数目太少可能会影响结果的准确性。
Xcell 为每种单元格类型使用多个签名。总共有489个特征符合64种细胞类型。完整的签名列表可在以下网址找到:

xCell.data$signatures

得分计算使用单样本基因集富集分析(ssGSVA)。对于每个单元格类型，计算来自多个相应签名的多个得分的平均值。最后，平均分数被移动，使得每个单元格类型的最小分数为零。

scores = rawEnrichmentAnalysis(expr, signatures,
genes, file.name, parallel.sz, parallel.type = "SOCK")

2. transformScores

这个函数用于将得分从原始浓缩得分转换为类似百分比的线性尺度，xcell 使用预先计算的校准参数进行转换。Xcell 使用不同的参数设置基于序列的基因表达值和基于微阵列的值(有关调整校准参数的信息，请参阅注3)。基于序列的值的参数可以在下面找到:

xCell.data$spill$fv

对于基于微阵列的数据:

xCell.data$spill.array$fv

函数的用法如下:

tscores = transformScores(scores, fit.vals, scale, fn)

‘scores’是 rawenrichmentanalysis 的输出; ‘ fit.vals’是上面描述的校准参数; 如果符合逻辑，则是否按比例缩放转换后的分数(默认值为 true 并推荐使用)。

3. spillOver

spillOver(transformedScores, K, alpha = 0.5, file.name = NULL)

usage

xCellAnalysis(expr, signatures = NULL, genes = NULL, spill= NULL, rnaseq = TRUE, file.name = NULL, scale = TRUE, alpha =0.5, save.raw = FALSE, parallel.sz = 4, parallel.type = "SOCK",cell.types.use =NULL)

可简化为

exprMatrix = read.table("expr",header=TRUE,row.names=1, as.is=TRUE)

4.实例

1）输入样本

在https://github.com/dviraran/xCell/tree/master/vignettes

sdy = readRDS('sdy420.rds')

sdy有两种数据，一种是表达谱，另一种是细胞分数。

sdy数据.png

expr.png

fcs.png

raw.scores = rawEnrichmentAnalysis(as.matrix(sdy$expr),
  xCell.data$signatures,
  xCell.data$genes) #首先生成原始分数

下一步是转换原始分数，并应用溢出补偿。为了获得最佳的结果，最好只对相关的细胞类型进行溢出补偿（例如，如果我们知道混合物中没有巨噬细胞，最好将它们从分析中去除）。因此，我们将分数矩阵子集为仅在CyTOF数据集中也被测量的单元格类型：

cell.types.use = intersect(colnames(xCell.data$spill$K),
                           rownames(sdy$fcs))

最后一步是补偿溢出效果的分数：

scores = spillOver(transformed.scores,xCell.data$spill.array$K)

请注意，我们在这里使用xCell.data$spill.array数据，因为表达式数据是用微阵列生成的。上面详细介绍的管道也可以使用xCell分析包装器功能同样执行：

scores = xCellAnalysis(sdy$expr, rnaseq=F,cell.types.use = cell.types.use)

使用这些分数，我们现在可以找到细胞分数和细胞类型分数之间的相关性:

library(psych)
library(ggplot2)
fcs = sdy$fcs[rownames(scores),colnames(scores)]
res = corr.test(t(scores),t(fcs),adjust='none')
qplot(x=rownames(res$r),y=diag(res$r),
     fill=diag(res$p)<0.05,geom='col',
     main = 'SDY420 asspciation with immunoprofiling',
     ylab = 'Pearson R')+labs(fill="p-value<0.05")+
     theme_classic()+
     theme(axis.text.x = element_text(angle = 45,hjust = 1))

该代码生成一个条形图（图1a），用于显示xCell分数与免疫分析的预期分数的相关性。我们发现18种细胞类型中的13种存在显著相关性(p值<0.05)，7种细胞类型中存在高相关性(R>0.5)。需要注意的是，xCell产生的是富集分数，而不是细胞类型的比例，因此不期望分数会与CyTOF比例相似，只是测量值之间将存在线性相关。

图1a

在上面的分析中，我们使用一个细胞子集运行了xCell，而不是所有64种细胞类型。在某些情况下，这可能会提高准确性，因为溢出补偿程序可能会进行过度补偿。因此，我们可以对所有细胞类型进行相同的分析，并与免疫图谱分析进行关联：