【R for Data Science】前言

2019-05-06  本文已影响0人  Chanic

学习<R for Data Science>第一天,了解一些基本数据科学相关知识以及tidyverse。


cover.png

将要学习

关于这本书,作者给出了一个简单的学习指导,大致会学习那些内容:


content.png

Wrangle表示数据处理,包括读取,清洗和转换,目的是为了使数据内容和结构便于进行后续分析。
Program与编程相关。
Explore是指对数据进行探索,包含数据质检,数据绘图等。
Model建模检验假设。

下图概括了一般的数据科学分析流程:


structure.png

不涉及内容

1.大数据:data.table更适合处理大数据,更大则需要学Hadoop或者Spark了(sparklyr,rhipe,ddr);

  1. Python和Julia等其他编程语言;
    非矩阵数据(图片、声音、树、文本文件等);
    命题论证:数据挖掘分为两大阵营:假设提出和假设检验(有时称为验证性分析)。
    假设验证分析难,所以不讲,只讲数据探索和假设提出。一般认为模型用来假设检验,可视化用来假设提出,但这是错误的。模型也可以用来数据探索,并用可视化验证。反正两者的主要区别就是在于验证需要看一次,探索需要看很多次观察值。

学前准备

Tidyverse

R包集合为数据科学提供工具,使之效率更高。

A collection of R packages designed to work together to make data science fast, fluent and fun.
Tidyverse官网解释为 "The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures. "

Tidyverse主要有readr, tibble, dplyr, tidyr, purrr, ggplot2等方面。

包的安装
    install.packages("tidyverse")   ### 必需包
    install.packages(c("nycflights13", "gapminder", "Lahman"))   ###本书需要的R包

</article>


Reference:

  1. https://www.tidyverse.org/
  2. https://r4ds.had.co.nz/
  3. https://bookdown.org/
  4. https://github.com/hadley/r4ds
上一篇 下一篇

猜你喜欢

热点阅读