R for Data Science(笔记) ---数据整理(P
想了一下还是做一个笔记目录,这样能够方便查询
R for Data Science(笔记) ---数据变换(filter使用)
R for Data Science(笔记) ---数据变换(select基础使用)
R for Data Science(笔记) ---数据变换(select组合其他函数)
R for Data Science(笔记) ---数据变换(创建新的变量)
R for Data Science(笔记) ---数据变换(行排序)
R for Data Science(笔记) ---数据变换(归纳总结)
R for Data Science(笔记) ---数据整理(分列和合并)
tidy流处理数据的运用,我想这与管道符%>% 的使用,数据处理动词化,有着很重要的关系。
用最少的时间,解决最重要的、最常见的问题,我把这称为是高效;剩余的难点,我把其称为提高。
宽数据变长数据
pivot相关的函数就是为了对数据的表现形式进行改变
之前在ggplot2画图之前的准备----数据宽长变换谈及过数据长宽变换,也就是pivot函数的应用。这次使用原书里面的例子。
table4a %>%
pivot_longer(c(`1999`, `2000`), names_to = "year", values_to = "cases")
#> # A tibble: 6 x 3
#> country year cases
#> <chr> <chr> <int>
#> 1 Afghanistan 1999 745
#> 2 Afghanistan 2000 2666
#> 3 Brazil 1999 37737
#> 4 Brazil 2000 80488
#> 5 China 1999 212258
#> 6 China 2000 213766
其实,在数据变换的过程中还是对这种数据的一个理解,也就是下面这副图的变换。
长数据变宽数据
上面的例子是宽数据变成长数据,一般不会有问题,而长数据变成宽数据时,偶尔会出现问题,主要原因是tidyverse处理数据会把数据形式变为tibble格式,这个和datafram是有去别的。关于这个问题的处理,我在以前的文章中写过,并且展示过。
ggplot2画图之前的准备----数据宽长变换
为什么要做这些事情
不仅就要问了,为啥搞这么多东西
这是tidyverse处理数据的模式,为什么要这样做,因为写ggplot2 package和tidyverse的
作者是一个人,把R的底层搞一遍,顺带做的适合自己画图工具。
以及 Hadley Wickham的个人GitHub
不得不说,有些东西的进步可能还真是就是个别一些人的推动,这又要牵扯到历史观了,据说R的推动是由于Rstudio的推动,而像Hadley Wickham这样的人,则是开创了一种新的方法。当然这样的人,还有像 谢益辉,Rmarkdown的作者,也是改变了一种展现方法。