癌症基因组及资源

肿瘤纯度计算(ESTIMATE基因表达特征)

2022-12-06  本文已影响0人  生信小鹏

概念来源

肿瘤纯度(tumor purity)指的是样本中肿瘤细胞占所有细胞的比例。原始文献
Systematic pan-cancer analysis of tumour purity

为什么要用这个概念:因为取样过程很难保证取到的所有细胞都是肿瘤细胞,并且混杂的正常体细胞会对后续的分析产生影响(比如基因的表达水平),因此在生物信息学分析中最好计算肿瘤纯度并做相应的校正。

一般方法:ABSOLUTE、PyClone、SciClone、EXPANDS、ESTIMATE

ESTIMATE方法

评估肿瘤纯度的方法有很多种,可以利用甲基化水平,拷贝数变异情况。而ESTIMATE方法是一种根据基因表达数据计算基质及免疫得分并推断肿瘤纯度。

ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumours using Expression data),使用基因表达特征来推断肿瘤样本中的基质细胞和免疫细胞的比例。

ESTIMATE得分与11个肿瘤类型的样本中(TCGA;Agilent、Affymetrix、RNA-Seq)基于拷贝数的肿瘤纯度相关。

ESTIMATE计算

安装相应的包

library(utils)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos=rforge, dependencies=TRUE)

主要功能函数:
(1) estimateScore:计算基质、免疫和评估分数。
(2) filterCommonGenes:输入数据与10,412个普通基因的交集。
(3) plotPurity:肿瘤纯度绘图。

计算

OvarianCancerExpr <- system.file("extdata", "sample_input.txt", package="estimate")
filterCommonGenes(input.f=OvarianCancerExpr, output.f="OV_10412genes.gct", id="GeneSymbol")

格式要求:input.f(输入数据:行为基因名,且为symbol或Entrez id)

计算肿瘤相关评分

计算肿瘤组织中的基质细胞和免疫细胞的评分(基于ssGSEA算法)

estimateScore("OV_10412genes.gct", "OV_estimate_score.gct", platform="affymetrix")

这里其实需要根据个人的情况,选择相对应的测序平台

输出文件OV_estimate_score.gct

绘制肿瘤纯度图

plotPurity(scores="OV_estimate_score.gct", samples="s516", platform="affymetrix")

计算基本完成

网页下载TCGA的estimate分数

TCGA的相关数据其实都已经计算好了,也可以直接下载
ESTIMATE: Home (mdanderson.org)

参考文章
estimate 算法计算肿瘤纯度 - 简书 (jianshu.com)
VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法
评估肿瘤纯度的方法:基于拷贝数变异 ABSOLUTE和DoAbsolute
从表达数据计算基质及免疫得分并推断肿瘤纯度
estimate的两个打分值本质上就是两个基因集的ssGSEA分析 - 知乎 (zhihu.com)

上一篇下一篇

猜你喜欢

热点阅读