R语言处理数据

2018-05-04 本文已影响0人肖玉贤

案例

对r语言中原有的数据包BJsales进行相关处理

library(datasets) #获取数据集

head(BJsales) #查看一部分数据，并对其类型（class）、长度（length）及平均值（mean）等进行查看，如图：

基本的数据分布

类似的还可以对数据进行分位数查看，如下代码

quantile(BJsales,c(0.85,0.95))

quantile(BJsales,c(0.75,0.85)) #quantile()函数能够给出数据的分位数，直接做是五分位；

还包括极值range（）、最大值max()、最小值min()、方差var()以及标准差sd()等；

#range()函数计算极值的首选； min()计算最小值； max()计算最大值； var()计算方差，方差是专门用于度量数据分散程度的统计量。主要是与均值的距离。 sd()是标准差，就是方差的算术平方根，数值要比方差小得多，更有助于观察数据的变化。

同时，我们还会发现：均值mean和标准差sd的和与差总是落在极值范围内，也就是在max和min之间。

如图：

基本量计算

这里要给大家介绍下标准误SE的作用，主要是用于消除数据量带来的影响，对于数据量大的多的数据来说，标准误更有意义。出入如下代码即可：

标准误计算

除上述一步步完成整个描述性统计过程外，我们也可以定义函数，依此输出需要的数据量：如下编写名叫alldata的函数function（x)

alldata <- function(x){

+ var<- var(x)

+ sd<- sd(x)

+ med<- median(x)

+ r<- max(x)- min(x)

+ error<- sqrt(var/length(x))

+ m<- mean(x)

+ n<- length(x)

+ data.frame(var,sd,med,r,m,n) #不好意思，这儿好像忘记输出error了，(#^.^#)

+ }

alldata(attenu$accel)

结果如下图：

alldata的输出结果

好了，我的小伙伴们，今天就先到这儿吧，下期见！O(∩_∩)O哈哈~