科研信息学GEO数据挖掘R语言代码

estimate 包所有函数超详细解读及计算免疫浸润评分

2021-02-07  本文已影响0人  灵活胖子的进步之路

estimate包可以通过RNA-seq的数据来计算标本的免疫及机制评分,进而评估肿瘤的纯度,其原理通过特征的肿瘤的RNA-seq的signture来评估以上内容,其输入文件需要的为RNA-seq的矩阵,内在还是需要common_genes-data来计算。以下详细解读这个包的常用函数的用法并计算评分

首先按照包

install.packages("estimate", repos="http://R-Forge.R-project.org")
library(estimate)

首先应用自带的内在数据集

OvarianCancerExpr <- system.file("extdata", "sample_input.txt", package="estimate")
read.table(OvarianCancerExpr)[1:4,1:4]
内置数据集,行名为样本名,列名为基因的symbol

下面我们应用filterCommonGenes这个函数来取我们自己的表达矩阵与作者gene data set 的交集

filterCommonGenes(input.f=OvarianCancerExpr,#输入文件,为自己的表达矩阵
                  output.f="OV_10412genes.gct",#定义输出到工作目录的输出文件名,后缀为gct
                  id="GeneSymbol")#我们数据集的列名为GeneSymbol,因此这里选择拿GeneSymbol进行匹配

以下我们看下生成的OV_10412genes.gct文件

rt<-read.table("OV_10412genes.gct", 
               skip = 2, 
               header = TRUE, 
               sep = "\t")
View(rt)
保留前2行的时候数据模式,可以看到有10412个基因,10个样本
去掉前2行后,可以看到剩下的数据为一个新的数据集矩阵

estimate包内其实包含了内置的共有基因的数据集,名称为common_genes,以下我们来看下

data("common_genes")
View(common_genes)
包里内置的common genes

从这个数据集可以看出,在filterCommonGenes函数中参数id我们还可以选择EntrezID

之后estimateScore函数计算各种免疫及基质评分

estimateScore(input.ds = "OV_10412genes.gct", #刚才过滤得到的输入文件
              output.ds="estimateScore.gct", #输出的输出文件
              platform="affymetrix") #注意平台,如果为TCGA或者测序数据则选择illumina

这是这个包的主要函数,下图为改函数的用法


注意不同平台的选择不同,我们为测序数据

以下整理数据的格式

estimateScore.gct文件的原始模式,可以看到,前2行为注释行
scores=read.table("estimateScore.gct",#读取文件
                  skip = 2,#删除前2行
                  header = T)#第一行为列名
View(scores)
scores数据集模式,可以看到,列名为样本名,行名为三种评分的名称
rownames(scores)=scores[,1]#取第一列为行名
scores=t(scores[,3:ncol(scores)])#取3列到最后1列的数据并进行数据转置
View(scores)
最后这里好的数据集,行名为样本名,列名为三种评分
上一篇下一篇

猜你喜欢

热点阅读