统计学基础知识
来自我组组员张晶晶、戴璐。
常用描述性统计
-
定义
-
均值:统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。常见的有算数平均数和加权平均数两种。算数平均数是加权平均数各权重相等时的特殊情况。它是反映数据集中趋势的一项指标。
-
方差:总体各单位标准值与其期望离差平方的算术平均数。反映数据间的离散程度。
-
标准差:总体各单位标准值与其期望离差平方的算术平均数的平方根。它反映数据间的离散程度。
-
分位数:亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
-
最大、最小值:即一组数据中数值最大的数即为最大值,数据最小的数即为最小值。
-
峰度:是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。
img -
偏度:是描述某变量取值分布对称性的统计量 。正态分布的偏度为 0,两侧尾部长度一样。偏度小于 0 左侧尾部较长,在均值左侧的数据比在均值右侧的数据少,有少数变量很小,使得左侧尾巴较长。同理,偏度大于 0 时,右侧尾部较长,在均值右侧的数据少于在均值左侧的数据,有少数变量值很大,使得右部尾巴拖得很长。
img
-
-
举例说明
- 可参考文档「统计学培训_学员真实成绩分析」
假设检验-正态性检验及显著性检验
-
定义
-
正态性检验:利用观测数据判断总体是否服从正态分布的检验称为正态性检验。
-
显著性检验:就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。这是假设检验中最常用的一种方法。其原理就是 “小概率事件实际不可能性原理” 来接受或否定假设。通常只限定犯第一类错误的最大概率 α, 不考虑犯第二类错误的概率 β。我们把这样的假设检验称为显著性检验,概率 α 称为显著性水平。显著性水平是数学界约定俗成的,一般有 α = 0.05,0.025,0.01 这三种情况。代表着显著性检验的结论错误率必须低于 5% 或 2.5% 或 1%。
img
-
-
应用目的
- 正态性检验:检验样本数据是否符合正态分布。是做假设检验和方差分析的前提条件。
- 显著性检验:判断总体的真实情况与原假设是否显著地有差异。
-
举例说明
- 例子:赵先生开了一家日用百货公司,该公司分别在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某一个月的公司销售额。
郑州分公司 Z = {23,25,26,27,23,24,22,23,25,29,30}
杭州分公司 H = {24,25,23,26,27,25,25,28,30,31,29}
现在,赵先生想要知道两个公司的销售额是否有存在明显的差异。
- 解答过程:我们做原假设:样本集 Z(郑州分公司)和样本集 H(杭州分公司)不存在显著性差异,然后对两个样本做方差检验。计算出 P 值即原假设成立时的概率值。在显著性水平 α =0.05的情况下, P > 0.05 接受原假设, P < 0.05 拒绝原假设。我们的原假设是样本集 Z (郑州分公司)和样本集 H (杭州分公司)间不存在显著性差异,但是由于 P = 0.2027 > 0.05,所以接受原假设,即样本集 Z 和样本集 H 间不存在显著性差异。
相关性分析
-
定义:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
- 具体内容: img
-
应用条件:相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
-
应用举例:研究腰围、体重、脂肪含量之间的相关关系。
-
先绘制两两者之间的散点图。如下是体重和腰围的散点图:从图中可以直观看出两者是呈现正相关的。
img -
选择系数公式。我们一般用 Pearson 相关系数,Pearson 相关系数要求变量服从正态分布,所以在计算相关系数之前,需要先确定两变量是否都服从正态分布,或者近似正态分布。用 SPSS 做正态性检验结果如下图。当 Sig > 0.05 时,表明该变量服从正态分布,否则为非正态分布。我们的数据通过检验。
img -
计算相关系数。我们会得到一个相关系数矩阵。如下图。
img从上图中可知,腰围和体重的相关系数 r = 0.853,存在强相关;脂肪比重和体重的相关系数 r = 0.697,存在中度相关。
-
显著性检验。在 SPSS 中,不但计算出变量间的相关系数,同时还进行了显著性检验,见上图中显著性一行。腰围和体重对应的概率 P= 0.000(因精度的原因,看起来概率为 0),显然 P < 0.05,即根据显著性检验,也可知腰围和体重、脂肪比重和体重,都存在显著的线性相关关系。
-
进行业务判断
根据前面的相关分析,可得到数据分析结论:
- 根据显著性判断,可知腰围与体重、脂肪比重与体重,都存在显著线性相关性。
- 根据相关系数,可知腰围与体重存在强相关,脂肪比重与体重存在中度相关。
然后,再从业务上对分析结果进行解读,并给出相应的业务策略或建议:
- 业务解读:腰围对体重的影响很大,脂肪比重对体重的影响较大。
- 业务建议:要减轻体重,最好先减小腰围,少吃脂肪类食物。
-
回归分析
-
定义:是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
-
具体内容
- 根据自变量与因变量的现有数据以及关系,初步设定回归方程;
- 求出合理的回归系数;
- 进行相关性检验,确定相关系数;
- 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间。
-
应用条件
- 自变量与因变量之间存在线性关系
- 可以通过绘制 “散点图矩阵” 进行考察因变量随各自变量值的变化情况。如果因变量 y 与某个自变量 x 之间呈现出曲线趋势,可尝试通过变量变换予以修正,常用的变量变换方法有对数变换、倒数变换、平方根变换、平方根反正弦变换等。
- 各观测间相互独立
- 残差 e 服从正态分布 N(0,σ^2)。其方差 σ^2 = var(e)反映了回归模型的精度,σ 越小,用所得到回归模型预测 y 的精确度愈高。
- e 的大小不随所有变量取值水平的改变而改变,即方差齐性。
- 自变量与因变量之间存在线性关系
-
应用举例
本例为用 SPSS 做广告费用和销量之间的线性回归分析。并且预测投入广告为 20 万元时,销量为多少。
- 数据如下:
�
-
用 SPSS 做回归分析,主要结果解释:
- 首先是模型汇总,主要是看模型的拟合效果。下图第 3 列 R 方为判定系数,一般认为需要大于 60%,是用于判定线性方程拟合优度的重要指标,体现了回归模型解释因变量变异的能力,越接近 1 越好。从结果中可以看出值为 0.919,初步判断模型拟合效果良好。
- 方差分析的显著性检验。下图结果中显著性值 = 0.000 < 0.01 < 0.05,表明由自变量 “ 广告费用 ” 和因变量 “ 销售量 ” 建立的线性关系回归模型具有极显著的统计学意义,即增加广告费用与销售量之间的线性关系显著。
-
下图是建模的最直接结果,读取未标准化系数,我们可以写出模型表达式,如下:
y = 79.991 + 9.503 x
这里关键要看自变量广告费用的回归系数是否通过检验,t 检验原假设回归系数没有意义,由最后一列回归系数显著性值 = 0.000 < 0.01 < 0.05,表明回归系数 b 存在,有统计学意义,广告费用与销售量之间是正比关系,而且极显著。
img -
上面已经得出回归逻辑公式,接下来我们需要检验数据是否可以做回归分析,它对数据的要求是苛刻的,有必要就残差进行分析。从标准化残差直方图来看,左右两侧不完全对称;从标准化残差的 P - P图来看,散点并没有全部靠近斜线,并不完美。综合而言,残差正态性结果不是最好的,当然在现实分析当中,理想状态的正态并不多见,接近或近似即可考虑接受。
5. 模型残差独立性检验。DW = 1.475,查询 Durbin Watson table 可以发现本例 DW 值恰好出在无自相
关性的值域之中,认定残差独立,通过检验。
img 6. 预测,把相应的值带入回归方差即可得到预测值。
相关分析与回归分析的区别
- 相同点:两种方法都可以断定所研究变量间有统计相关性。
- 不同点:
- 在回归分析中,y 被称为因变量,处在被解释的特殊地位,而在相关分析中,x 与 y 处于平等的地位,即研究 x 与 y 的密切程度和研究 y 与 x 的密切程度是一致的;
- 相关分析中,x 与 y 都是随机变量,而在回归分析中,y 是随机变量,x 可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定 x 是非随机的;
- 相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示 x 对 y 的影响大小,还可以由回归方程进行数量上的预测和控制。