D4-R for Data Science
安装R包
install.packages("tidyverse")
数据处理神包
tidyverse
加载R包
library(tidyverse)
tidyverse 核心包为 R包ggplot2、tibble、readr、purrrr、dplyr
遇到问题解决办法:
如果错误消息不是英文,可以运行Sys.setenv(LANGUAGE = "en"),接着重新运行代码;使用英文错误消息进行查询更可能获得帮助。
如果Google没有找到报错答案,可以试试Stack Overflow。用[R]可以将搜索范围限定在与R相关的问题和答案中。如果没有发现任何有用的内容,可以准备一个简单的可重现实例,即reprex。
reprex 准备包括3项:所需R包,数据,代码。
- 脚本开头就加载R包,并检查是否使用了每个R包的最新版本,例如用tidyverse_updata()函数。
- 在 reprex 中包含数据的最简单方法是使用 dput() 函数生成重建数据的 R 代码。例如,
- 要想在 R 中重建 mtcars 数据集,可以遵循以下步骤:
(1) 在 R 中运行 dput(mtcars);
(2) 复制输出结果;
(3) 在可重现脚本中输入 mtcars <-,然后粘贴输出结果。
应该努力找出依然能够反映问题的数据最小子集。
花一点时间确保别人可以轻松理解你的代码: - 确保使用了空格,并且变量名简明扼要;
- 用注释来说明你的问题所在;
- 尽最大努力去除所有与问题不相关的内容。
代码越短,越容易理解,问题也就越容易解决。
启动一个新的 R 会话,将你的脚本复制并粘贴进去,检查 reprex 是否已经准备完毕。
创建ggplot图形
library(tidyverse) #加载tidyverse包
mpg #使用的包含美国环保协会收集的38中车型观测数据
ggplot(data = mpg) +
geom_point(mapping = aes(x=displ,y=hwy))
效果如下:
image.png
ggplot(data = mpg) 会创建一张空白图,函数 geom_point() 向图中添加一个点层,这样就可以创建一张散点图。 ggplot2 中包含了多种几何对象函数,每种函数都可以向图中添加不同类型的图层。
绘图模板:
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
分页
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_wrap(~ class, nrow = 2)
效果如下:
image.png
要想通过两个变量对图进行分面,需要在绘图命令中加入函数facet_grid()。
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(drv ~ cyl)
效果如下:
image.png
注意: drv和cyl;class是分类变量 nrow=2 说明是分两行;
几何对象
ggplot2 中的每个几何对象函数都有一个 mapping 参数。但是,不是每种图形属性都适合每种几何对象。你可以设置点的形状,但不能设置线的“形状”,而可以设置线的线型。
geom_smooth() 函数可以按照不同的线型绘制出不同的曲线,每条曲线对应映射到线型的变量的一个唯一值:
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))
效果如下:
点是geom_point ;线是geom_smooth;
要想在同一张图中显示多个几何对象,可以向 ggplot() 函数中添加多个几何对象函数:
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
geom_smooth(mapping = aes(x = displ, y = hwy))
效果如下:
image.png
将一组映射传递给 ggplot() 函数。 ggplot2 会将这些映射作为全局映射应用到图中的每个几何对象中。
如果将映射放在几何对象函数中,那么 ggplot2 会将其看作这个图层的局部映射,它将使用这些映射扩展或覆盖全局映射, 但仅对该图层有效。这样一来,我们就可以在不同的图层中显示不同的图形属性。
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth()
效果如下:
image.png
同理,你也可以为不同的图层指定不同的数据。下图中的平滑曲线表示的只是 mpg 数据集的一个子集,即微型车。 geom_smooth() 函数中的局部数据参数覆盖了 ggplot() 函数中的全局数据参数,当然仅对这个图层有效:
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth(
data = filter(mpg, class == "subcompact"),
se = FALSE
)
作图如下:
image.png
统计变换
• 条形图、直方图和频率多边形图可以对数据进行分箱,然后绘制出分箱数量和落在每个分箱的数据点的数量。
• 平滑曲线会为数据拟合一个模型,然后绘制出模型预测值。
• 箱线图可以计算出数据分布的多种摘要统计量,并显示一个特殊形式的箱体。
?geom_bar 显示出 stat 的默认值是 count,这说明 geom_bar() 使用 stat_count() 函数进行统计变换。?geom_bar 显示出 stat 的默认值是 count,这说明 geom_bar() 使用 stat_count() 函数进行统计变换。
ggplot(data = diamonds) +
geom_bar(
mapping = aes(x = cut, y = ..prop.., group = 1)
)
image.png
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut))
image.png
你可能想要在代码中强调统计变换。例如,你可以使用stat_summary() 函数将人们的注意力吸引到你计算出的那些摘要统计量上。 stat_summary() 函数为 x 的每个唯一值计算 y 值的摘要统计:
ggplot(data = diamonds) +
stat_summary(
mapping = aes(x = cut, y = depth),
fun.ymin = min,
fun.ymax = max,
fun.y = median
)
image.png
位置调整
条形图堆叠是由 position 参数设定的位置调整功能自动完成的。如果不想生成堆叠式条形图,你还可以使用以下 3 种选项之一: "identity"、 "fill" 和 "dodge"。
重点掌握以下两种:
image.pngimage.png
此外还有一种位置调整,虽然不适合条形图,但非常适合散点图。回忆一下我们的第一张散点图。通过将位置调整方式设为“抖动”,可以避免这种网格化排列。 position = "jitter" 为每个数据点添加一个很小的随机扰动,这样就可以将重叠的点分散开来,因为不可能有两个点会收到同样的随机扰动:
image.png
坐标系
coord_flip()
函数可以交换 x 轴和 y 轴。当想要绘制水平箱线图时,这非常有用。它也非常适合使用长标签。
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot()
image.png
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot() +
coord_flip()
image.png
image.pngcoord_quickmap() 函数可以为地图设置合适的纵横比。当使用 ggplot2 绘制空间数据时,这个函数特别重要。