生信星球培训第九期

2018-11-18 学习小组Day6 笔记——R包tidyr入

2018-11-18  本文已影响22人  albor

tidyr包主要功能

将数据处理成标准而统一的数据框

其作用主要是把数据处理成标准而统一的数据框Tidy Data,然后进一步整理数据,为后续的数据处理和作图做准备

常规数据框结构:
每一列col:代表一个变量(variable)
每一行row:代表一次观测(observation)
Tidy Data的数据框结构:
每一列col:每个变量(variable)
每一行row:每个观测值(observation)的某种情况(case)

通过这样的reshape就由宽表格转为了长表格(纵向长)

安装tidyr

数据实操

1. Reshape Data(变形)

摘自https://www.rstudio.com/resources/cheatsheets
Data <- data.frame(country = c("A","B","C"), 
                   "1999" = c("0.7K","37K","212K"), 
                   "2000" = c("2K","80K","213K"))
raw

2. Handle Missing Values(处理丢失的NA数据)

3. Expand Tables

摘自https://www.rstudio.com/resources/cheatsheets
X <- complete(X, X1, fill = list(X2 = 5))
complete
complete
如果填多个,可以
X <- complete(X, nesting(X1, X3,...,), fill = list(X2 = 5))
pin2 <- data.frame(GeneId = rep("gene5", times = 3),
             Samplename = paste("Sample", 1:3, sep = ""),
             Expression = c(14, 19, 18))`
raw
pin3 <- expand(pin2, GeneId, Samplename, Expression)
expand()
expand()

4. split cells(把一列拆成两列)

pin4 <- separate(pin3, SampleName,  into = c("Sample", "name"))
unite(pin4, Sample, name, col = "SampleName", sep = "")

unite()

摘录参考:生信星球第九期Day6生信入门班教程

上一篇下一篇

猜你喜欢

热点阅读