R数据科学笔记:4
本次笔记整理了第一部分《探索》,具体函数的用法还是要去之前的笔记看一下
R数据科学笔记:1
R数据科学笔记:2
R数据科学笔记:3
1.ggplot2相关
gglpot2绘图模板:
ggplot(data = <DATA>) +<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>),stat = <STAT>,position = <POSITION>) +<FACET_FUNCTION>
真正的绘图命令(stat_ ,geom_ ,annotate),这三类就是实现一个函数一个图层的核心函数。
geom_abline 线图,由斜率和截距指定
geom_area 面积图(即连续的条形图)
geom_bar 条形图
geom_bin2d 二维封箱的热图
geom_blank 空的几何对象,什么也不画
geom_boxplot 箱线图
geom_contour 等高线图
geom_crossbar crossbar图(类似于箱线图,但没有触须和极值点)
geom_density 密度图
geom_density2d 二维密度图
geom_errorbar 误差线(通常添加到其他图形上,比如柱状图、点图、线图等)
geom_errorbarh 水平误差线
geom_freqpoly 频率多边形(类似于直方图)
geom_hex 六边形图(通常用于六边形封箱)
geom_histogram 直方图
geom_hline 水平线
geom_jitter 点、自动添加了扰动
geom_line 线
geom_linerange 区间,用竖直线来表示
geom_path 几何路径,由一组点按顺序连接
geom_point 点
geom_pointrange 一条垂直线,线的中间有一个点(与Crossbar图和箱线图相关,可以用来表示线的范围)
geom_polygon 多边形
geom_quantile 一组分位数线(来自分位数回归)
geom_rect 二维的长方形
geom_ribbon 彩虹图(在连续的x值上表示y的范围,例如Tufte著名的拿破仑远征图)
geom_rug 触须
geom_segment 线段
geom_smooth 平滑的条件均值
geom_step 阶梯图
geom_text 文本
geom_tile 瓦片(即一个个的小长方形或多边形)
geom_vline 竖直线
统计变换函数
stat_abline 添加线条,用斜率和截距表示
stat_bin 分割数据,然后绘制直方图
stat_bin2d 二维密度图,用矩阵表示
stat_binhex 二维密度图,用六边形表示
stat_boxplot 绘制带触须的箱线图
stat_contour 绘制三维数据的等高线图
stat_density 绘制密度图
stat_density2d 绘制二维密度图
stat_function 添加函数曲线
stat_hline 添加水平线
stat_identity 绘制原始数据,不进行统计变换
stat_qq 绘制Q-Q图
stat_quantile 连续的分位线
stat_smooth 添加平滑曲线
stat_spoke 绘制有方向的数据点(由x和y指定位置,angle指定角度)
stat_sum 绘制不重复的取值之和(通常用在三点图上)
stat_summary 绘制汇总数据
stat_unique 绘制不同的数值,去掉重复的数值
stat_vline 绘制竖直线
aes : 用于修改geom_XXX() aes参数控制了对哪些变量进行图形映射,图形属性(aes) 横纵坐标(x与y)、点的大小(size)、颜色(color),透明度(alpha)和形状(shape)等。
position:定位函数。
position_dodge 并列。
position_fill 填充。
position_identity 不对位置进行处理。
position_jitter 扰动处理。
position_stack 堆叠处理。
coord:坐标函数。
coord_cartesian 笛卡儿坐标。
coord_equal 等尺度坐标(斜率为1)。
coord_flip 翻转笛卡儿坐标。
coord_map 地图投影 。
coord_polar 极坐标投影 。
coord_trans 变换笛卡儿坐标。
2.dplyr数据转换
1.按行筛选:filter():按给定的逻辑判断筛选出符合要求的子数据集, 类似于 subset() 函数
2.按列筛选:select():select()用列名作参数来选择子数据集。
starts_with(“abc”) 匹配以“abc”开头的名称
ends_with(“xyz”) 匹配以“xyz”结尾的名称
ontains(“ijk”) 匹配包含“ijk”的名称
matches(“(.)\1”) 匹配正则表达式的那些变量
3.排列行:arrange():改变行的顺序,如果列名不止一个,就使后面的列在前面的基础上进行排序
4.添加新变量:mutate():mutate可以对数据框中已有的变量进行操作或者增加变量,如果只想保留新变量,可以使用transmute()函数
5.分组摘要:summarize:与group_by()连用可以构成dplyr的最常用操作之一:分组摘要,亦可以与mutate()和filter()结合。