R Rrogramming - WEEK2

2018-03-28  本文已影响0人  富士山下裸奔

Assignment: 环境污染

Data:

            数据由332个csv文件组成,内容是美国332个地点的污染物PM检测数据,包含3个变量:

                    date(观测日期 YYYY-MM-DD)

                    sulfate(硫酸盐:该日空气中硫酸盐的含量(以每立方米微克计)

                    nitrate(当天空气中硝酸盐含量(以每立方米微克计))

specdata.zip解压之后文件 每个csv表格数据组成

part1   pollutantmean

        问题简述:计算给定文件的sulfate or nitrate 的平均值

函数的构造思路

         难点:①批量读取csv 参考:R语言-基础操作(批量数据读取和输出) 

                    ②读取id 范围之内各个文件:(001-010).csv、(010-099).csv、(100-332).csv. 即 0个数 由 id的位数 决定,提供一个思路,str_dup                       (R语言字符串处理包stringr)

                    ③ 数据合并操作,行合并,rbind

         代码如下:

pollutantmean函数

part2    complete 

问题简述: 读取给定文件数据,能够统计完整数据的个数。

难点:①去除NA的获取完整数据的方法: 


形式一 形式二 形式三

分别举例:使用的数据是datasets包中的,airquality 数据集

形式1:选取"Solar.R", "Wind"两列,并选出"Solar.R"列数据非NA和"Wind"数据大于12的子集

形式一实例

形式2: 

形式二实例

形式3:

形式三实例

其实有好多方法,我觉得有必要整理,所以。。。

回归本题,代码如下:

complete函数

part3    corr

问题简述: 设置一个threhold,用于描述完整数据条数,大于这个值,拿过来求correlation,,然后把值都存在一个向量。

难点: ①什么是相互关系、如何求相互关系 

            ②cor( X, use = ?, method = ?) , 要特别讲一下,use的作用,an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the strings "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs". 用来存在Na条件下,怎么计算的?

代码如下:(可以直接调用complete函数,读者自己尝试)

corr函数

参考:

https://github.com/biobyelogy/jhu-02-r-programming/blob/master/W02%20Assignment.md

https://www.cnblogs.com/weibaar/p/4162023.html

上一篇下一篇

猜你喜欢

热点阅读