肿瘤纯度计算(ESTIMATE基因表达特征)
概念来源
肿瘤纯度(tumor purity)指的是样本中肿瘤细胞占所有细胞的比例。原始文献
Systematic pan-cancer analysis of tumour purity
为什么要用这个概念:因为取样过程很难保证取到的所有细胞都是肿瘤细胞,并且混杂的正常体细胞会对后续的分析产生影响(比如基因的表达水平),因此在生物信息学分析中最好计算肿瘤纯度并做相应的校正。
一般方法:ABSOLUTE、PyClone、SciClone、EXPANDS、ESTIMATE
ESTIMATE方法
评估肿瘤纯度的方法有很多种,可以利用甲基化水平,拷贝数变异情况。而ESTIMATE方法是一种根据基因表达数据计算基质及免疫得分并推断肿瘤纯度。
ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumours using Expression data),使用基因表达特征来推断肿瘤样本中的基质细胞和免疫细胞的比例。
ESTIMATE得分与11个肿瘤类型的样本中(TCGA;Agilent、Affymetrix、RNA-Seq)基于拷贝数的肿瘤纯度相关。
ESTIMATE计算
安装相应的包
library(utils)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos=rforge, dependencies=TRUE)
主要功能函数:
(1) estimateScore:计算基质、免疫和评估分数。
(2) filterCommonGenes:输入数据与10,412个普通基因的交集。
(3) plotPurity:肿瘤纯度绘图。
计算
OvarianCancerExpr <- system.file("extdata", "sample_input.txt", package="estimate")
filterCommonGenes(input.f=OvarianCancerExpr, output.f="OV_10412genes.gct", id="GeneSymbol")
格式要求:input.f(输入数据:行为基因名,且为symbol或Entrez id)
计算肿瘤相关评分
计算肿瘤组织中的基质细胞和免疫细胞的评分(基于ssGSEA算法)
estimateScore("OV_10412genes.gct", "OV_estimate_score.gct", platform="affymetrix")
这里其实需要根据个人的情况,选择相对应的测序平台
输出文件OV_estimate_score.gct
绘制肿瘤纯度图
plotPurity(scores="OV_estimate_score.gct", samples="s516", platform="affymetrix")
计算基本完成
网页下载TCGA的estimate分数
TCGA的相关数据其实都已经计算好了,也可以直接下载
ESTIMATE: Home (mdanderson.org)
参考文章
estimate 算法计算肿瘤纯度 - 简书 (jianshu.com)
VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法
评估肿瘤纯度的方法:基于拷贝数变异 ABSOLUTE和DoAbsolute
从表达数据计算基质及免疫得分并推断肿瘤纯度
estimate的两个打分值本质上就是两个基因集的ssGSEA分析 - 知乎 (zhihu.com)