R语言入门5：数据变形-Tidyr

2017-11-26 本文已影响80人曹务强

1.Tidy data原则

当我们进行数据整理时，同样的数据，可以整理成不同的形式，在下面的例子中，我们可以把GeneId作为行，样品名称作为列，也可以颠倒过来，以样品名称为行，基因编号作为列：

image

当我们用R处理数据时，应该遵循Tidy data的原则：

每一列：代表一个变量（vairable）
每一行：代表一次观测（observation）

在我们上面的例子中，基因的ID，样品名称以及基因的表达量都是变量，而每一个基因在每一个样品中的表达量可以成为一次观测。因此，按照Tidy data的原则，应该将上述图表中的数据整理成如下格式：

image

我们在正式对生物信息学数据进行统计分析之前，应该先把我们的数据格式转换为Tidy data格式，因为R语言中的大多数包都只支持Tidy data格式的数据。

2.使用Tidyr转换数据格式

(1)Tidyr的安装

在使用Tidy之前，首先要下载安装软件包：

1）修改下载源

依次点击Tools--Global Options--Packages--Change，选择一个国内的CRAN镜像：

image

2）下载安装Tidyr

点击Tools--Install Packages，输入要安装的软件包tidyr，点击install即可自动安装：

image

或者，我们也可以使用命令行进行软件的安装：

# 使用install.package()命令安装软件
> install.packages("tidyr")

(2) 数据的转换-1

1）转换策略

image

我们的目的是要把左边的数据转换成右边的格式，要实现转换结果，在Geneid一定的情况下，我们可以把每一个样品和其对应的基因表达量看做一个键-值对（key-value pair）。比如：在GeneID为gene1时，sample1对应的表达量是3，sample2对应的表达量是4。因此，我们在转换数据时，只需按照上述规则，并指定要转换的列即可。使用tidyr包中的gather函数即可实现转换。

2）加载包

在使用Tidyr包之前，我们需要先加载包：

# 加载tidyr包
> library(tidyr)

3）使用gather命令将数据转换为Tidy格式

1.读取数据：

> gene_exp <-  read.table(file = "gene_exp.txt", sep = "\t", header = TRUE)
> gene_exp
  GeneId Sample1 Sample2 Sample3
1  gene1       1     2.0     0.3
2  gene2       4     5.0     6.0
3  gene3       7     0.8     9.0
4  gene4      10    11.0    12.0

原始数据是这样的：

image

2.格式转换

# gather()命令转换说明：
# gather（data=数据框名，key="key名"，value="value名"，要转换的列1，列2，列3）
> gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", Sample1, Sample2, Sample3)
# 在指定要转换的列时，也可不用列名，直接指定列的编号即可
> gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", 2:4)
#  在指定要转换的列时，也可指定不需转换的列，其他列参与转换
> gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", -GeneId)

转换后的效果：

image

4）使用spread()函数将Tidy格式数据还原

Tidyr中的spread()函数，可以将Tidy格式的数据，转换成原来的格式：

> spread(data = gene_exp_tidy, key = "sample_name", value = "expression")
  GeneId Sample1 Sample2 Sample3
1  gene1       1     2.0     0.3
2  gene2       4     5.0     6.0
3  gene3       7     0.8     9.0
4  gene4      10    11.0    12.0

(3) 数据的转换-2

有时，在数据处理时，我们会遇到下面这种更加复杂的情况，在GeneId一定的情况下，每一样品还对应不同的温度：

image

对这样的数据，我们应该如何处理呢？

1)处理策略

1.先使用gather()函数，按列进行转换
2.再使用spread()函数，将Sample和温度分开

2)数据处理

1.读取数据

# 读取数据
> gene_exp3 <- read.table(gene_exp3.txt, sep = "\t", header = TRUE)

2.使用gather()函数处理

> gene_exp3_tidy <- gather(gene_exp3, key, Expression, -GeneId)

gather()处理后的结果：

image

3.使用seprate()函数，对key这一列进行分割

> gene_exp3_tidy2 <- separate(gene_exp3_tidy, col = key, into = c("SampleName","Temperature"))

最终的效果如下：

image

R语言入门5：数据变形-Tidyr

1.Tidy data原则

2.使用Tidyr转换数据格式

(1)Tidyr的安装

1）修改下载源

2）下载安装Tidyr

(2) 数据的转换-1

1）转换策略

2）加载包

3）使用gather命令将数据转换为Tidy格式

4）使用spread()函数将Tidy格式数据还原

(3) 数据的转换-2

1)处理策略

2)数据处理

猜你喜欢

热点阅读