统计学基础知识

2018-09-19 本文已影响433人刘月玮

来自我组组员张晶晶、戴璐。

常用描述性统计

定义
- 均值：统计学中最常用的统计量，用来表明资料中各观测值相对集中较多的中心位置。常见的有算数平均数和加权平均数两种。算数平均数是加权平均数各权重相等时的特殊情况。它是反映数据集中趋势的一项指标。
- 方差：总体各单位标准值与其期望离差平方的算术平均数。反映数据间的离散程度。
- 标准差：总体各单位标准值与其期望离差平方的算术平均数的平方根。它反映数据间的离散程度。
- 分位数：亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。
- 最大、最小值：即一组数据中数值最大的数即为最大值，数据最小的数即为最小值。
- 峰度：是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。
  img
- 偏度：是描述某变量取值分布对称性的统计量。正态分布的偏度为 0，两侧尾部长度一样。偏度小于 0 左侧尾部较长，在均值左侧的数据比在均值右侧的数据少，有少数变量很小，使得左侧尾巴较长。同理，偏度大于 0 时，右侧尾部较长，在均值右侧的数据少于在均值左侧的数据，有少数变量值很大，使得右部尾巴拖得很长。
  img
举例说明
- 可参考文档「统计学培训_学员真实成绩分析」

假设检验-正态性检验及显著性检验

定义
- 正态性检验：利用观测数据判断总体是否服从正态分布的检验称为正态性检验。
- 显著性检验：就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。这是假设检验中最常用的一种方法。其原理就是 “小概率事件实际不可能性原理” 来接受或否定假设。通常只限定犯第一类错误的最大概率 α，不考虑犯第二类错误的概率 β。我们把这样的假设检验称为显著性检验，概率 α 称为显著性水平。显著性水平是数学界约定俗成的，一般有 α = 0.05，0.025，0.01 这三种情况。代表着显著性检验的结论错误率必须低于 5% 或 2.5% 或 1%。
  img
应用目的
- 正态性检验：检验样本数据是否符合正态分布。是做假设检验和方差分析的前提条件。
- 显著性检验：判断总体的真实情况与原假设是否显著地有差异。
举例说明
- 例子：赵先生开了一家日用百货公司，该公司分别在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额，集合中的每一个数代表着一年中某一个月的公司销售额。
郑州分公司 Z = {23，25，26，27，23，24，22，23，25，29，30}

杭州分公司 H = {24，25，23，26，27，25，25，28，30，31，29}

现在，赵先生想要知道两个公司的销售额是否有存在明显的差异。
- 解答过程：我们做原假设：样本集 Z（郑州分公司）和样本集 H（杭州分公司）不存在显著性差异，然后对两个样本做方差检验。计算出 P 值即原假设成立时的概率值。在显著性水平 α =0.05的情况下， P > 0.05 接受原假设， P ＜ 0.05 拒绝原假设。我们的原假设是样本集 Z （郑州分公司）和样本集 H （杭州分公司）间不存在显著性差异，但是由于 P = 0.2027 ＞ 0.05，所以接受原假设，即样本集 Z 和样本集 H 间不存在显著性差异。

回归分析

定义：是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
具体内容
1. 根据自变量与因变量的现有数据以及关系，初步设定回归方程；
2. 求出合理的回归系数；
3. 进行相关性检验，确定相关系数；
4. 在符合相关性要求后，即可根据已得的回归方程与具体条件相结合，来确定事物的未来状况，并计算预测值的置信区间。
应用条件
1. 自变量与因变量之间存在线性关系
  - 可以通过绘制 “散点图矩阵” 进行考察因变量随各自变量值的变化情况。如果因变量 y 与某个自变量 x 之间呈现出曲线趋势，可尝试通过变量变换予以修正，常用的变量变换方法有对数变换、倒数变换、平方根变换、平方根反正弦变换等。
2. 各观测间相互独立
3. 残差 e 服从正态分布 N（0，σ^2）。其方差 σ^2 = var（e）反映了回归模型的精度，σ 越小，用所得到回归模型预测 y 的精确度愈高。
4. e 的大小不随所有变量取值水平的改变而改变，即方差齐性。
应用举例

本例为用 SPSS 做广告费用和销量之间的线性回归分析。并且预测投入广告为 20 万元时，销量为多少。
1. 数据如下：
img

�
1. 用 SPSS 做回归分析，主要结果解释：
  1. 首先是模型汇总，主要是看模型的拟合效果。下图第 3 列 R 方为判定系数，一般认为需要大于 60%，是用于判定线性方程拟合优度的重要指标，体现了回归模型解释因变量变异的能力，越接近 1 越好。从结果中可以看出值为 0.919，初步判断模型拟合效果良好。
  img
  1. 方差分析的显著性检验。下图结果中显著性值 = 0.000 < 0.01 < 0.05，表明由自变量 “ 广告费用 ” 和因变量 “ 销售量 ” 建立的线性关系回归模型具有极显著的统计学意义，即增加广告费用与销售量之间的线性关系显著。
  img
  1. 下图是建模的最直接结果，读取未标准化系数，我们可以写出模型表达式，如下：
    
    y = 79.991 + 9.503 x
    
    这里关键要看自变量广告费用的回归系数是否通过检验，t 检验原假设回归系数没有意义，由最后一列回归系数显著性值 = 0.000 < 0.01 < 0.05，表明回归系数 b 存在，有统计学意义，广告费用与销售量之间是正比关系，而且极显著。
    img
  2. 上面已经得出回归逻辑公式，接下来我们需要检验数据是否可以做回归分析，它对数据的要求是苛刻的，有必要就残差进行分析。从标准化残差直方图来看，左右两侧不完全对称；从标准化残差的 P - P图来看，散点并没有全部靠近斜线，并不完美。综合而言，残差正态性结果不是最好的，当然在现实分析当中，理想状态的正态并不多见，接近或近似即可考虑接受。