统计第一课

2017-09-17  本文已影响78人  张伟松

描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

概念

基本概念

描述性统计量:

描述数据离散程度的统计量:

两变量之间关系:

描述统计--思维导图

练习

Excel

平均数:使用函数AVERAGE,例如stereo数据集中 Sales Volume字段表示每周的销售业绩,平均值为AVERAGE(C2:C11),结果是51。
中位数MEDIAN(C2:C11)=52
众数MODE(C2:C11)=54,MODE函数返回一组数据区域中出现频率最高的数。

四分位数:Excel有QUARTILE函数,返回的是一组数据的四分位点,该函数有两个参数,第一个参数是数据范围,第二个参数是数值0到4,本别可以求出数据的最大值,上四分位,中位数,下四分位和最大值。
所以上四分位是QUARTILE(C2:C11,1)=46.5,75%四分位数是QUARTILE(C2:C11,3)=56.25

标准差和方差:标准差使用STDEV函数,方差只需对其平方。
Z分数:计算标准分Z分数,根据公式


要求一个数的标准分,用该数减去平均分,再除以标准差,公式为(C2-AVERAGE($C$2:$C$11))/STDEV($C$2:$C$11),复制到其他数值。
Excel数据透视表/图

Excel中的数据透视表可做数据汇总,生成易于理解的表和图展示数据。
restaurant数据集包含300家餐饮店的消费信息,我在E1位置插入=》数据透视表=》选择范围$A$1:$C$301=》确定。如下图


上方包含所有可选的字段,我们可以吧这些字段任意拖动到新的透视表中——作为行标签或者列标签或者数据内容。
比如要查看不同Quality Rating的餐饮店在不同消费水平的信息:将Quality Rating拖动到行标签,Meal Price 拖动到列标签,Restaurant拖动到数值框,修改Restaurant的显示方式为计数,在表格中列标签上右键点击选择分组,设置开始结束和step就可以得到:

R

引入包导入数据

library("openxlsx")
Stereo<- read.xlsx("Stereo.xlsx","Data")
Volume <- Stereo$Sales.Volume 

均值

mean(Volume)
[1] 51

中位数

median(Volume)
[1] 52

众数:R中没有直接求众数的,可是用table函数计算出每个值的频数,再用which.max取频数最大的。54,它是第6个值。

 which.max(table(Volume))
54 
 6 

四分位数

quantile(Volume)
   0%   25%   50%   75%  100% 
38.00 46.50 52.00 56.25 63.00 

标准差

 sd(Volume)
[1] 7.930252

方差

 var(Volume)
[1] 62.88889

标准分

scale(Volume)
            [,1]
 [1,] -0.1260994
 [2,]  0.7565964
 [3,] -1.2609941
 [4,]  0.3782982
 [5,]  0.3782982
 [6,] -1.6392923
 [7,]  1.5131929
 [8,] -0.3782982
 [9,]  1.0087952
[10,] -0.6304970

果然还是R计算的更精确,功能也更加强大。

上一篇下一篇

猜你喜欢

热点阅读