27统计基础- 置信区间
2021-01-04 本文已影响0人
不到7不改名
置信区间
自助法(Bootstrap Method,Bootstrapping或自助抽样法)。在统计学中,自助法是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random samplingwith replacement)。对于小数据集,自助法效果很好。
我们测量了12只母老鼠的体重,然后采用自助法进行抽样。
- 随机抽取12个值从原来的样本中
- 计算随机抽取12个值的平均值
- 重复步骤1和步骤2,直到计算的平均值数量>10000。
95%置信区间(confidence interval)
- 95%置信区间就是覆盖95%均值的区间。
- 因为区间覆盖了95%的均值,所以区间以外的概率小于5%。也就是说,任何在置信区间之外的p值都< 0.05(因此,差异显著)。
真实的统计检验(visual statistical tests):
1.所有雌性小鼠(不仅仅是我们的样本)的“真实”平均值的p值是多少?小于20?
- 这是样本均值,是对所有雌性小鼠“真实”均值的估计。
- 95%置信区间告诉我们哪些值是可能的,哪些值是不可能的。
- 因为高亮显示的区域在95%置信区间之外,95%置信区间包含95%的均值,所以"真"均值在该区域的概率小于0.05。因此p值< 0.05,这是不可能的,我们说有统计学上的显著差异。
2.比较两个样品
- 因为95%置信区间没有重叠,我们知道雌性和雄性小鼠的体重在统计学上存在显著差异。p值< 0.05看这张图就知道了
- 当置信区间存在重合时,我们使用t检验