学习小组Day6笔记--真元气少女
2019-05-13 本文已影响0人
真元气少女
安装R包(以tidyr为例)
它的功能主要有:
(1)数据框的变形
(2)处理数据框中的空值
(3)根据一个表格衍生出其他表格
(4)实现行或列的分割和合并
把你要用的数据处理成标准而统一的数据框(Tidy Data)
安装tidyr
-
library(tidyr)
没安装会报错 -
install.packages("tidyr")
默认安装到工作目录里(如果出现报错,在Tools--global options--packages--"global -RStudio改成中国镜像,地区选离的近的,重新安装),安装完成后library(tidyr)
,没报错就是成功 - 新建数据框,并赋值给a
a<data. frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep =""),Expression=c(14,19,18))
image.png
涉及到的函数有rep ,重复,括号中填要重复的字符和重复次数。
paste ,连接两个字符串,括号要填两个待连接的字符并指定分隔符(sep),没有分隔符就填sep=“”。
1:3表示从1到三。如需一列中需要填入三个无规律的数字,可以用向量c(1,3,4) ,同样如果填的是字符串也需要加双引号,例如c("doudou","huahua","xiaoyu") 。
- key-value:“键值对” ,表示一种对应关系。“键”和“值”都是列名,
如SampleName和Expression的对应。 - 函数后面一般都要加括号,括号里第一个参数是都数据框名
- 字符串要加双引号(行名和列名也是字符串,但是可以不用加),其他单元格里出现的字符串要加。
6.1 行raw;列column,简写位col
认识tidyr data
tidyr data是一种组织表格数据的方式,提供了一种能够跨包使用的“统一”的数据格式:每个变量(variable)占一列,每个case和观测值(observation)占一行。
![](https://img.haomeiwen.com/i17740306/9cbc229986299e7b.png)
参考tidyr PDF文件
- Reshape Data
gather:整理数据
spread:使数据恢复整理前的状态 - Handle Missing Values
处理丢失的数据,就是某些单元格有空值的情况。
(1).删除整行
(2).根据上下文(瞎)蒙一个
(3).同一列的空值填上同一个数。
drop_na() :有空值的,整行删除掉
括号里填数据框名,依据的列名(有空值那一列的列名)
drop_na(X,X2)
fill() ,根据上一行的数值填充上(好应付的感觉)
fill(X,X2)
replace_na() ,空值填进去特定的一个数值(还是在应付)
括号里填数据框名,要填的列名=要填的值
replace_na(X,list(X2=2))
- complete(把空值位置补全)
complete(X,nesting(X1),fill=list(X2=5))
- expand列出每列值所有可能的组合-