据说假设检验是个很难的题

2020-11-30  本文已影响0人  可乐的数据分析之路

首发于微信公众号【可乐的数据分析之路】

假设检验是利用样本对总体进行的推断的方法。其原理是小概率反证法。即为了检验一个假设是否成立,我们先假设它成立,在原假设成立的前提下,如果出现了不合理的事件,则说明样本与总体的差异是显著的,就拒绝原假设,如果没有出现不合理的事件,就不拒绝原假设。

这里所述的不合理的事件指的就是小概率事件,通常情况下我们认为一个小概率事件基本上不会发生,如果发生了,说明它就不是一个小概率事件了,所以不能接受原假设。

假设检验的基本问题

Q:1989年某地新生儿的平均体重为3190克,1990年新生儿随机抽取100个平均体重为3210克,1990年和1989年的新生儿相比,体重有无显著差异?

首先我们要明确,这个问题的关键点在哪里,关键点是这20克的差异说明了什么?是抽样的随机性吗?为了解决这个问题,就提出了假设检验这个方法。

假设检验的流程

1. 提出假设

2. 选择检验统计量

统计量的选择与样本量大小、总体标准差是否已知有关,后面会细分。

常用的检验统计量有z统计量、t统计量(均值和比例)和卡方统计量(方差)。

具体选择哪个统计量,主要有样本量n的大小、总体的标准差是否已知有关。

样本量较大时(n>30),可以选择z统计量,样本量较小、总体标准差已知时,也可以选择z统计量,样本量较小,总体标准差未知时,用t统计量。

image

<figcaption style="line-height: inherit; margin: 0px; padding: 0px; margin-top: 10px; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;"></figcaption>

3. 确定拒绝域

首先确定显著性水平α。即希望在样本结果的不可能程度达到多大时,就拒绝原假设,也就是小概率事件发生的概率,显著性水平用百分数表示。通常是5%和1%作为显著性水平。

这篇文章里我们就不去推导统计量和拒绝域是如何得出的了,对于大部分非相关专业人士来说,确实是很晦涩的,我们重点关注如何使用就好。

4. 计算P值

为了精确地反映决策的风险度,我们利用P值进行决策。

什么是P值?

p值是当原假设为真时样本观察结果或更极端结果出现的概率。

如果P值很小,说明这种情况发生的概率很小,如果这种情况还出现了,那么就有理由拒绝原假设。P值越小,拒绝原假设的理由就越充分。

根据选取的检验统计量计算P值,通过P值确定是否拒绝该原假设。手工计算P值是比较复杂的,好在现在都可以用Excel、Python、SPSS等工具计算。

5. 做决策

将P值和显著性水平进行比较。

两类错误

假设检验的分类

image

<figcaption style="line-height: inherit; margin: 0px; padding: 0px; margin-top: 10px; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;"></figcaption>

T检验

选用t统计量进行的检验,是对正态总体均值的检验,t检验中,假设样本呈正态分布,总体参数未知,会有以下3种情况:

Z检验

选用z统计量进行的检验通常称之为z检验,一般用于大样本的双样本总体均值的检验,或者方差已知,关于总体均值的检验也可用Z检验。

F检验

前面的t检验、z检验均是对总体均值的检验,F检验是对正态总体方差的检验,因此也叫做方差齐性检验。在回归分析中,我们用F检验来判断因变量与自变量之间的线性关系是否显著,就是判断其方差是否相等。

举个例子

推广活动前后APP活跃度的对比,在显著性水平为0.05的条件下分析推广活动是否提高了APP的活跃度。这里用成对二样本t检验。

[图片上传失败...(image-e3d47d-1604837401267)]

<figcaption style="line-height: inherit; margin: 0px; padding: 0px; margin-top: 10px; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;"></figcaption>

上一篇 下一篇

猜你喜欢

热点阅读