学习tidyverse - 数据可视化(1)

2021-05-06  本文已影响0人  DumplingLucky

我学习的主要是这本书R for Data Science.


上图是我们处理数据的流程

1. Prerequisites

install.packages("tidyverse")
library(tidyverse)

我们使用ggplot2中的mpg数据框进行分析测试。 数据框是变量(列)和观察值(行)的矩阵集合。 mpg包含美国环境保护署收集的有关38辆汽车的观察结果。

mpg
#> # A tibble: 234 x 11
#>   manufacturer model displ  year   cyl trans      drv     cty   hwy fl    class 
#>   <chr>        <chr> <dbl> <int> <int> <chr>      <chr> <int> <int> <chr> <chr> 
#> 1 audi         a4      1.8  1999     4 auto(l5)   f        18    29 p     compa…
#> 2 audi         a4      1.8  1999     4 manual(m5) f        21    29 p     compa…
#> 3 audi         a4      2    2008     4 manual(m6) f        20    31 p     compa…
#> 4 audi         a4      2    2008     4 auto(av)   f        21    30 p     compa…
#> 5 audi         a4      2.8  1999     6 auto(l5)   f        16    26 p     compa…
#> 6 audi         a4      2.8  1999     6 manual(m5) f        18    26 p     compa…
#> # … with 228 more rows

displ: 表示汽车引擎大小(以升为单位)。
hwy: 高速公路上的汽车燃油效率,以英里/加仑(mpg)为单位。 当相同距离行驶时,低燃油效率的汽车比高燃油效率的汽车消耗更多的燃油。

2. Creating a ggplot

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

该图显示了发动机尺寸(排量)和燃油效率(高速)之间的负相关关系。
ggplot()的第一个参数是要在图形中使用的数据集。因此ggplot(data = mpg)创建了一个空图,然后通过向ggplot()添加一层或多层来完成图形。
函数geom_point()在绘图上添加了一层点,从而创建了一个散点图。
ggplot2附带了许多geom函数,每个函数都会在绘图中添加不同类型的图层。ggplot2中的每个geom函数都带有一个映射参数。这定义了数据集中的变量如何映射到视觉属性。映射参数始终与aes()配对,而aes()的x和y参数指定要映射到x和y轴的变量。

3. Aesthetic mappings

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, color = class))

在上面的示例中,我们将点的类别映射到颜色,我们也可以以相同的方式将类别映射到尺寸。

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, size = class))
#> Warning: Using size for a discrete variable is not advised.

我们也可以将类映射到控制点的透明度的alpha,或控制点的形状。

# Up
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, alpha = class))

# Down
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, shape = class))
Up
Down

ggplot2一次只能使用六个形状。对于每种映射,都可以使用aes()将映射名称与要显示的变量相关联。

还可以手动设置几何图形的映射属性。例如,我们可以将图中的所有点设为蓝色:

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy), color = "blue")

要手动设置映射,需按名称将映射设置为geom函数的参数, 需要选择一种适合该美学的水平:

4. Facets

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_wrap(~ class, nrow = 2)
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_grid(drv ~ cyl)

5. Geometric objects

# Up
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

# Down
ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy))
Up
Down

ggplot2中的每个geom函数都带有一个映射参数。 可以设置点的形状,或者可以设置线的线型。 例如:geom_smooth()将为映射到线型的变量的每个唯一值绘制一条不同的线,并使用不同的线型。

ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))

许多几何图形(例如geom_smooth())都使用单个几何对象显示多行数据。ggplot2将为分组group变量的每个唯一值绘制一个单独的对象。
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy))
              
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, group = drv))
    
ggplot(data = mpg) +
  geom_smooth(
    mapping = aes(x = displ, y = hwy, color = drv),
    show.legend = FALSE
  )



要在同一图中显示多个几何,可以将多个几何函数添加到ggplot()中:

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) +
  geom_smooth(mapping = aes(x = displ, y = hwy))

如果将映射放置在geom函数中,则ggplot2会将其视为该图层的局部映射。 它将仅使用这些映射来扩展或覆盖该层的全局映射。 这可以实现在不同的图层显示不同的映射。

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
  geom_point(mapping = aes(color = class)) + 
  geom_smooth()

可以使用相同的想法为每个图层指定不同的数据。 在这里,我们的平滑线仅显示mpg数据集的一个子集,即小型汽车。 geom_smooth()中的局部数据参数仅覆盖该层的ggplot()中的全局数据参数。

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
  geom_point(mapping = aes(color = class)) + 
  geom_smooth(data = filter(mpg, class == "subcompact"), se = FALSE)

参考:https://r4ds.had.co.nz/introduction.html

上一篇下一篇

猜你喜欢

热点阅读