R Rrogramming - WEEK2

2018-03-28 本文已影响0人富士山下裸奔

Assignment: 环境污染

Data:

数据由332个csv文件组成，内容是美国332个地点的污染物PM检测数据，包含3个变量：

date(观测日期 YYYY-MM-DD)

sulfate(硫酸盐:该日空气中硫酸盐的含量(以每立方米微克计)

nitrate(当天空气中硝酸盐含量(以每立方米微克计))

specdata.zip解压之后文件

每个csv表格数据组成

part1 pollutantmean

问题简述：计算给定文件的sulfate or nitrate 的平均值

函数的构造思路

难点：①批量读取csv 参考：R语言-基础操作（批量数据读取和输出）

②读取id 范围之内各个文件：（001-010）.csv、(010-099).csv、(100-332).csv. 即 0个数 由 id的位数 决定，提供一个思路，str_dup (R语言字符串处理包stringr)

③ 数据合并操作，行合并，rbind

代码如下：

pollutantmean函数

part2 complete

问题简述：读取给定文件数据，能够统计完整数据的个数。

难点：①去除NA的获取完整数据的方法：

形式一

形式二

形式三

分别举例：使用的数据是datasets包中的，airquality 数据集

形式1：选取"Solar.R", "Wind"两列，并选出"Solar.R"列数据非NA和"Wind"数据大于12的子集

形式一实例

形式2：

形式二实例

形式3：

形式三实例

其实有好多方法，我觉得有必要整理，所以。。。

回归本题，代码如下：

complete函数

part3 corr

问题简述：设置一个threhold，用于描述完整数据条数，大于这个值，拿过来求correlation,，然后把值都存在一个向量。

难点： ①什么是相互关系、如何求相互关系

②cor( X, use = ?, method = ?) , 要特别讲一下，use的作用，an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the strings "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs". 用来存在Na条件下，怎么计算的？

代码如下：（可以直接调用complete函数，读者自己尝试）

corr函数

参考：

https://github.com/biobyelogy/jhu-02-r-programming/blob/master/W02%20Assignment.md

https://www.cnblogs.com/weibaar/p/4162023.html

R Rrogramming - WEEK2

Assignment: 环境污染

Data:

猜你喜欢

热点阅读