2018-11-18 学习小组Day6 笔记——R包tidyr入

2018-11-18 本文已影响22人 albor

tidyr包主要功能

将数据处理成标准而统一的数据框

数据框的变形
处理数据框中的空值
根据一个表格衍生出其他表格
实现行或列的分割和合并

其作用主要是把数据处理成标准而统一的数据框Tidy Data，然后进一步整理数据，为后续的数据处理和作图做准备

常规数据框结构：
每一列col：代表一个变量（variable）
每一行row：代表一次观测（observation）
Tidy Data的数据框结构：
每一列col：每个变量（variable）
每一行row：每个观测值（observation）的某种情况（case）

通过这样的reshape就由宽表格转为了长表格（纵向长）

了解概念：key-value：“键值对” ，表示一种对应关。“键”和“值”都是列名，如 SampleName和Expression的对应。

安装tidyr

R包说明书下载：谷歌/百度
Rstudio的cheatsheet网站：https://www.rstudio.com/resources/cheatsheets
https://github.com/rstudio/cheatsheets/raw/master/data-import.pdf
tidyr安装：
下载和安装tidyr：install.packages("tidyr")
安装成功后加载：library(tidyr)

数据实操

1. Reshape Data（变形）

摘自https://www.rstudio.com/resources/cheatsheets

新建数据框，并将数据框赋值给Data

Data <- data.frame(country = c("A","B","C"), 
                   "1999" = c("0.7K","37K","212K"), 
                   "2000" = c("2K","80K","213K"))

raw

gather()函数：变形成Tidy Data
Data <- gather(Data, X1999, X2000, key = "year", value = "cases")
gather
若需合并的列名较多，可用排除法进行合并：
Data <- gather(Data, "year", "cases", -country)
spread()函数：变回原来的宽表格
Data <- spread(Data, year, cases)

2. Handle Missing Values（处理丢失的NA数据）

三种处理方式：
(1) 删除整行
(2) 根据上下文估计一个
(3) 同一列的空值填上同一个数

摘自https://www.rstudio.com/resources/cheatsheets
导入数据
X <- read.csv('doudou.txt') #原本就是“，”分隔的txt
raw
drop_na() 函数：有空值的，整行删除掉括号里填数据框名
X <- drop_na(X, X2)
drop_na
fill() 函数，根据上一行的数值填充上
X <- fill(X, X2)
fill()
replace_na() 函数，空值填进去特定的一个数值括号里填数据框名，要填的列名 = 要填的值
X <- replace_na(X, list(X2 = 2))
replace_na()

3. Expand Tables

complete()函数：（把空值的位置补全）

摘自https://www.rstudio.com/resources/cheatsheets
X <- complete(X, X1, fill = list(X2 = 5))

complete

complete
如果填多个，可以
X <- complete(X, nesting(X1, X3,...,), fill = list(X2 = 5))

expand()函数：（就是扩增选中的列中的值各种组合，成为一个新表）
输入数据：

pin2 <- data.frame(GeneId = rep("gene5", times = 3),
             Samplename = paste("Sample", 1:3, sep = ""),
             Expression = c(14, 19, 18))`

raw
pin3 <- expand(pin2, GeneId, Samplename, Expression)

expand()

4. split cells（把一列拆成两列）

separate()分割成两列
原列必须要有分隔符才行。

摘自https://www.rstudio.com/resources/cheatsheets
separate()
separate_rows():分割成两行
原列必须要有分隔符才行。

摘自https://www.rstudio.com/resources/cheatsheets
separate_rows(pin3, SampleName)
separate_rows()
unite()分割完了再合并

摘自https://www.rstudio.com/resources/cheatsheets

pin4 <- separate(pin3, SampleName,  into = c("Sample", "name"))
unite(pin4, Sample, name, col = "SampleName", sep = "")

unite()

摘录参考：生信星球第九期Day6生信入门班教程