数据分析解密大数据

三分钟读懂什么是置信区间

2017-03-23  本文已影响431人  橙子LifeX

解密大数据-数据分析方法论3 的课程中,有些部分没怎么听懂,课后为了搞懂这些概念,读了下《极简统计学》相关的部分,算是初步弄清楚了一些概念,这篇文章,我试图用比“极简”还极简的方式,来用最少的语言,说清楚这几个概念。

下面的内容默认你已经懂了这些:正态分布、方差、标准差

推论统计

首先,推论统计中最常用的两个方法,其实就是逻辑上的推理,比较好理解

演绎法(Deductive reasoning):从全体推论到部分。

也就是说,如果我们知道一个整体是蓝色的,那么这个整体的部分,我们能够推论出它是蓝色的。

演绎法

归纳法(Inductive reasoning): 从部分推论到全体。

归纳法

这�个方法在统计学中更重要。

我们并不知道整体 A 的颜色,但是我们观察到一部分 a 是蓝色的,那么 A 有可能是蓝色的,如果我们每次取样都是蓝色的,那么A 是蓝色的可能性随着我们的观测次数越多,就越高。但是很多情况下,我们永远没办法观测到整体的 A,只能不断的观测样本,进而根据观察数据进行推测。

黑天鹅在这

上图中,假设我们一直在观测不同取样次数的 a,每次都是蓝色,持续了许许多多次,我们几乎确定,每次取样都是蓝色的,所有人都相信,A 就是蓝的。但是,突然有一天,一个新样本中,a 是白色的!这就颠覆了我已有的认知,A 不是纯蓝的,有小部分白色,只不过非常小,我们从没有观测到而已。这就是那只人类在之前从来都没有看到过的黑天鹅。

正态分布

这是自然界中最常见的分布,以均值为中心,两侧的分布概率依次减少,而标准正态分布,就是均值为0,标准差为1的分布:

标准正态分布

这个图形中的面积,就是分布的概率,最常用的是95%的分布区间,就是±1.96这个区间。

而一般正态分布有自己的均值和标准差,它和标准正态分布的关系就是:
$$
一般正态分布= σ × 标准正态分布 + μ
$$
如果标准正态分布的 - 1.96 ≤ n ≤ +1.96的区间概率为95%,那么一般正态分布按照上面的等式带入就有

N = σn + μ

n = (N - μ)/ σ

1.96 ≤ (N - μ)/ σ ≤ +1.96 的区间概率为95%

μ-1.96σ ≤ N ≤ μ+1.96σ 的区间概率为95%

一般正态分布

预测命中区间与置信区间

这个分布概率有什么用呢?把上面的归纳法和正态分布结合起来理解。

如果我们有一个数据集A 的分布是平均值为μ、标准差为σ的正态分布,在A 中随机取样一个数据a, μ-1.96σ ≤ a ≤ μ+1.96σ的概率为95%,这是预测命中区间

95%,就是我们命中下一次取样数据正确的概率。这是从整体推论到部分。

置信区间则不同,就需要用到归纳法了。这时候我们要从部分推测整体。

数据集 a 是A 的一个样本数据,a 的是平均值为μ、标准差为σ的正态分布,则母数据集 A 的平均值 ā (这个值是未知的,但是是客观存在的)μ-1.96σ ≤ ā ≤ μ+1.96σ 的概率为95%,这个区间为置信区间

我们并不知道 A 的平均值是多少,我们只能观测,根据我们现有的观测数据a,推测 A 的平均值在那个范围的概率为95%的置信区间就是μ-1.96σ ≤ ā ≤ μ+1.96σ。

而把新的数值带入这个不等式,就是假设检验的过程。


如有表达不准确的地方,还请指正,万分感谢。

本文为 泰阁志-解密大数据 学习笔记,了解更多请关注微信“泰阁志”

上一篇 下一篇

猜你喜欢

热点阅读