数据蛙强化课程第二期

统计学学习笔记(二):假设检验

2019-04-04  本文已影响3人  LucasOoo

假设检验

概念

第一类错误和第二类错误

image.png
显著性水平:当原假设为真并且以等式形式出现时犯第一类错误的概率称为检验的显著性水平,用𝛼表示。

总体均值检验:𝜎已知情形

总体均值的单侧检验(one-tailed test)有以下两种形式:
下侧检验 :
𝐻0:𝜇≥𝜇0
𝐻𝛼: 𝜇<𝜇0
上侧检验:
𝐻0:𝜇≤𝜇0
𝐻𝛼: 𝜇≥𝜇0

p-值法检验:

在总体标准差已知的情形下对总体均值进行假设检验,我们用标准正态随机变量z作为检验统计量来确定x ̅是否偏离假定𝜇足够远,从而有理由拒绝原假设
定义:p-值是一个概率值,它度量样本所提供的证据对原假设的支持程度。p-值越小说明拒绝原假设的证据越多。计算p-值的方法依赖于检验是下侧检验、上侧检验还是双侧检验。
下侧检验的拒绝法则:
1、临界值法:
如果z≤z𝛼,则拒绝H0

2、p-值法的拒绝法则
如果p-值≤𝛼,则拒绝𝐻0
能够告诉结果有多显著

image.png

双侧检验

关于总体均值的双侧检验的一般形式如下:
𝐻0:𝜇=𝜇0
𝐻𝛼:𝜇≠𝜇0

双侧检验:
若统计量的值位于抽样分布的两侧尾部,则支持拒绝原假设
p-值是一个概率值,用于衡量检验统计量与根据样本计算得出的检验统计量值存在明显差异的程度

image.png

总体均值假设检验的小结:𝜎已知的情形

image.png

假设检验步骤:

p-值法

临界值方法

区间估计与假设检验的关系

image.png

常用的p-值解读

p-值越小,则拒绝𝐻_0的证据就越多,从而支持𝐻_a 的证据越多。统计学家对于p-值给出了一些解读的指导意见:

总体均值的检验:𝜎未知的情形

image.png

案例分析1:单侧检验

一份关于旅客对机场评分标准的调查数据,最低分为0分,最高分为10分,如果平均打分不低于7分,我们认为机场提供了优质的服务。我们在伦敦希斯罗机场选取了60名旅客,获得了他们的评分,数据存储在AirRating中,样本均值为7.25,样本标准差s = 1.052。

当拒绝𝐻0时将会得出结论:希斯罗机场评分的总体均值大于7。因此需要采用下侧检验:
𝐻0:𝜇≤7
𝐻𝛼: 𝜇>7

import pandas as pd
import scipy.stats as stats
df=pd.read_csv('AirRating.CSV')
data = df.iloc[:,0].values
stats.ttest_1samp(data,7) #T分布双边检验,statistic为t的统计量值,pvalue为p值

计算得出:


image.png

因此p-值的上侧面积为pvalue/2=0.035 <0.05,拒绝H0,得出结论:希斯罗机场评分的总体均值大于7

案例分析2:双侧检验

Holidays Toys公司对零售商的平均玩具需求量进行假设检验
𝐻0:𝜇=40
𝐻
𝛼: 𝜇≠40

df2 = pd.read_csv('Orders.CSV')
data2 = df2.iloc[:,0].values
stats.ttest_1samp(data2,40) #T分布双边检验,statistic为t的统计量值,pvalue为p值
image.png
上一篇下一篇

猜你喜欢

热点阅读