estimate 包所有函数超详细解读及计算免疫浸润评分

2021-02-07 本文已影响0人灵活胖子的进步之路

estimate包可以通过RNA-seq的数据来计算标本的免疫及机制评分，进而评估肿瘤的纯度，其原理通过特征的肿瘤的RNA-seq的signture来评估以上内容，其输入文件需要的为RNA-seq的矩阵，内在还是需要common_genes-data来计算。以下详细解读这个包的常用函数的用法并计算评分

首先按照包

install.packages("estimate", repos="http://R-Forge.R-project.org")
library(estimate)

首先应用自带的内在数据集

OvarianCancerExpr <- system.file("extdata", "sample_input.txt", package="estimate")
read.table(OvarianCancerExpr)[1:4,1:4]

内置数据集，行名为样本名，列名为基因的symbol

下面我们应用filterCommonGenes这个函数来取我们自己的表达矩阵与作者gene data set 的交集

filterCommonGenes(input.f=OvarianCancerExpr,#输入文件，为自己的表达矩阵
                  output.f="OV_10412genes.gct",#定义输出到工作目录的输出文件名，后缀为gct
                  id="GeneSymbol")#我们数据集的列名为GeneSymbol，因此这里选择拿GeneSymbol进行匹配

以下我们看下生成的OV_10412genes.gct文件

rt<-read.table("OV_10412genes.gct", 
               skip = 2, 
               header = TRUE, 
               sep = "\t")
View(rt)

保留前2行的时候数据模式，可以看到有10412个基因，10个样本

去掉前2行后，可以看到剩下的数据为一个新的数据集矩阵

estimate包内其实包含了内置的共有基因的数据集，名称为common_genes,以下我们来看下

data("common_genes")
View(common_genes)

包里内置的common genes

从这个数据集可以看出，在filterCommonGenes函数中参数id我们还可以选择EntrezID

之后estimateScore函数计算各种免疫及基质评分

estimateScore(input.ds = "OV_10412genes.gct", #刚才过滤得到的输入文件
              output.ds="estimateScore.gct", #输出的输出文件
              platform="affymetrix") #注意平台，如果为TCGA或者测序数据则选择illumina

这是这个包的主要函数，下图为改函数的用法

注意不同平台的选择不同，我们为测序数据

以下整理数据的格式

estimateScore.gct文件的原始模式，可以看到，前2行为注释行

scores=read.table("estimateScore.gct",#读取文件
                  skip = 2,#删除前2行
                  header = T)#第一行为列名
View(scores)

scores数据集模式，可以看到，列名为样本名，行名为三种评分的名称

rownames(scores)=scores[,1]#取第一列为行名
scores=t(scores[,3:ncol(scores)])#取3列到最后1列的数据并进行数据转置
View(scores)

最后这里好的数据集，行名为样本名，列名为三种评分