learning_R

#R的学习笔记06

2021-02-03  本文已影响0人  ks_c

title: "R的学习笔记04"
author: "ks_c"
date: "2021/2/2"
output: html_document


<font face="宋体">以下为R数据分析指南与速查手册 第四章的内容</font>


tidyverse包做探索性数据分析

1. 数据变换总结

1.1 filter

filter进行行筛选,各逗号分隔的条件需同时满足,常用筛选条件有:

>, >=, <, <=, !=(不等于) , == ,near() , is.na(), %in%(前者是否在后者里面,返回值为T/F), between(x, left, right)

由于可能存在舍入误差,浮点数最好不用 == 而用near。

&, |, !, xor()(异或)

1.2 select

进行列筛选,各逗号分隔的条件任满足其一即可,常用辅助筛选函数有:

:(从a列到b列), - (除了这些列)
starts_with()、ends_with()、contains()、matches()、num_range()、one_of()、everything()、last_col()

1.3 arrange

对行进行排序,可以有多个排序条件,
降序:desc()

2. 多表融合总结

将两个或多个表,通过共同的列联结起来,常见的操作包括:

将具有相同列的两个表或多个表,对行进行集合操作

3. 增加新列总结

对原有的列进行运算,得到长度与数据行数相同的新列。

分组与取消分组:group_by()、ungroup()

4. 数据汇总总结

分组对列进行统计汇总,统计汇总函数一般含一个数据参数,这个参数为代表多个观测的向量,返回单个数值。当返回多个值时,可以将其转换为list.

数据汇总(一般会与分组结合):
summarise()
summarise_all(.tbl, .funs, …)
summarise_if(.tbl, .predicate, .funs, …)
summarise_at(.tbl, .vars, .funs, …, .cols = NULL)
所有列采用相同汇总函数时也可用map()、map_*(),但其无法和group_by结合
对summarise系列函数,若返回长度大于1的向量,可用list将结果包围。

5. 函数复用总结

单变量
返回列表:map(.x, .f, …)
返回 * 类型的向量:map_(.x, .f, …)( 可以是lgl、chr、int、dbl、raw)
得到输出、打印、保存等其他动作:walk()
返回数据框:map_dfc(.x, .f, …), map_dfr(.x, .f, …, .id = NULL)
条件筛选,返回列表:map_if(.x, .p, .f, …, .else = NULL)、map_at(.x, .at, .f, …)
2维变量:map2(.x, .y, .f, …)、map2_(.x, .y, .f, …)等(没有if和at)
p维变量:pmap(.l, .f, …)、pmap_
(.x, .y, .f, …)等(没有if和at)
递归复用:map_depth(.x, .depth, .f, …, .ragged = FALSE)

6. 可视化总结

ggplot图层:

ggplot(data = <DATA>) +
  <GEOM_FUNCTION>(
    mapping = aes(<MAPPINGS>),
    stat = <STAT>,
    position = <POSITION>
  ) +
  <COORDINATE_FUNCTION> +
  <FACET_FUNCTION> +
  <SCALE_FUNCTION> +
  <THEME_FUNCTION>

GEOM_FUNCTION
离散变量频次:geom_bar
连续变量频次:geom_histogram、geom_freqpoly、 geom_density
离散vs连续:geom_boxplot、geom_violin、并排geom_histogram
离散vs离散:geom_tile(热力图,颜色深浅表示频次),geom_count(点的大小表示频次)、并排geom_bar
连续vs连续:geom_point、geom_bin2d(方形封箱)、geom_hex(6边形封箱)、geom_smooth、geom_line、geom_density2d
3变量: geom_contour(aes(z = z))、geom_tile(aes(fill = z))、geom_raster(aes(fill = z))

MAPPINGS
x、y轴:x、y
点或边框的颜色:color (颜色字符串)
填充颜色:fill (颜色字符串)
形状:shape(最多6种,代表形状的数字)
点的大小、线的粗细:size (毫米为单位的数字)
透明度:alpha
线型:linetype(整数或字符串: 0 = blank, 1 = solid, 2 = dashed, 3 = dotted, 4 = dotdash, 5 = longdash, 6 = twodash)
边框粗细:stoke
group
STAT
“count”
“bin”
“identity”
“boxplot”

POSITION
“stack”:堆积
“identity”:独立重叠
“dodge”:侧面并列
“fill”:堆积归一
“jitter”:扰动
“dodge2”

COORDINATE_FUNCTION
coord_flip:坐标翻转
coord_fixed(ratio = 1/2):固定坐标比例
coord_polar:极坐标
coord_cartesian:笛卡尔坐标(默认,可修改坐标范围)coord_cartesian(xlim = c(0, 5))
FACET_FUNCTION
单变量分面:facet_wrap
双变量分面:facet_grid

点的形状代码
上一篇下一篇

猜你喜欢

热点阅读