R语言处理数据
案例
对r语言中原有的数据包BJsales进行相关处理
处理过程
library(datasets) #获取数据集
head(BJsales) #查看一部分数据,并对其类型(class)、长度(length)及平均值(mean)等进行查看,如图:
基本的数据分布类似的还可以对数据进行分位数查看,如下代码
quantile(BJsales,c(0.85,0.95))
quantile(BJsales,c(0.75,0.85)) #quantile()函数能够给出数据的分位数,直接做是五分位;
还包括极值range()、最大值max()、最小值min()、方差var()以及标准差sd()等;
#range()函数计算极值的首选; min()计算最小值; max()计算最大值; var()计算方差,方差是专门用于度量数据分散程度的统计量。主要是与均值的距离。 sd()是标准差,就是方差的算术平方根,数值要比方差小得多,更有助于观察数据的变化。
同时,我们还会发现:均值mean和标准差sd的和与差总是落在极值范围内,也就是在max和min之间。
如图:
基本量计算这里要给大家介绍下标准误SE的作用,主要是用于消除数据量带来的影响,对于数据量大的多的数据来说,标准误更有意义。出入如下代码即可:
标准误计算除上述一步步完成整个描述性统计过程外,我们也可以定义函数,依此输出需要的数据量:如下编写名叫alldata的函数function(x)
alldata <- function(x){
+ var<- var(x)
+ sd<- sd(x)
+ med<- median(x)
+ r<- max(x)- min(x)
+ error<- sqrt(var/length(x))
+ m<- mean(x)
+ n<- length(x)
+ data.frame(var,sd,med,r,m,n) #不好意思,这儿好像忘记输出error了,(#^.^#)
+ }
alldata(attenu$accel)
结果如下图:
alldata的输出结果好了,我的小伙伴们,今天就先到这儿吧,下期见!O(∩_∩)O哈哈~