数据可视化(R for data science)
2019-05-06 本文已影响0人
limbo1996
学习《R for data science》
使用ggplot2中自带的数据mpg
。为收集到的多种汽车数据。
问题:
-
Do cars with big engines use more fuel than cars with small engines?
-
What does the relationship between engine size and fuel efficiency look like?
会用到的mpg
中的变量:
-
displ
,汽车的发动机尺寸 -
hwy
, 车的燃油效率。
更多的信息可以?mpg
查看。
1.ggplot的基本格式
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping aes(<MAPPINGS>))
例如:
制作x轴displ
和y轴hwy
的相关图表。
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))
结果:
图1 displ~hey
2.数据美化
2.1 颜色
“The simple graph has brought more information to the data analyst’s mind than any other device.” — John Tukey
在做的图表中加入颜色是一种可以整合不同变量类型的一种方式。
比如,在图1中可以将车的不同类型表示出来。
ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, color = class))
结果:
只需要在
aes
中添加color
参数,将它映射到你想填入的变量上,ggplot2会自动分类并且做好图例。
2.2 大小
除了颜色,还可以将要添加的变量用点的大小表示出来(一般并不推荐)
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, size = class))
图3 size
可以看到使用形状来分类的话效果并不好。
透明度和形状
用点的透明度和点的形状来区分未必不是一个好办法。
#点的透明度
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, alpha = class))
#点的形状
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, shape = class))
图4 alpha
图5 shape
在形状中需要注意的是ggplots2一次只能使用六个形状。
3.颜色的其他用法
在上面不论是颜色还是形状大小等,他都代表了一定的含义即不同车的类型,每种车有自己的表示且对于一个x和相应的y就有一中表示方法。
对于geom来说,是可以自己设置的,比如,我们将所有的点都设置为蓝色。
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy),color = 'blue'))
图6 blue
在这里颜色不再有任何含义,它只是改变了外观而已。ggplots中有很多形状颜色等等是可以自己设置的,具体见其图例