数据蛙数据分析每周作业统计学

Datawhale统计学一周集训——任务二

2019-01-04  本文已影响11人  晓迦

学习内容

可汗学院视频 35-46集 中心极限定理、置信区间

学习笔记

中心极限定理

不管总体的分布如何,多次对样本抽样(样本容量n>30),多个样本的均值符合\mu=\hat{x},\sigma^2_n=\sigma^2/n的正态分布。

通过中心极限定理,可以从样本推断出整体的信息。
对一个总体抽取样本容量>30的样本多次,这样就能推断出总体的基本情况,做出一些推断,即使总体的样本不属于正态分布。

以下是摘抄来自《赤裸裸的统计学》
中心极限定理的核心要义是:一个大型样本的正确抽样与其所代表的的群体存在相似关系。

通过中心极限定理:

  1. 如果我们掌握了某些群体的具体信息,就能推断出从这个群体中正确抽取的随机样本的情况。
  2. 如果我们掌握了某个正确抽样的具体信息,就能对齐所代表的群体做出令人惊讶的精准推理。
  3. 如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。
  4. 如果我们已知两个样本的基本特性,就能推断这俩个样本是否取自同一个群体。

标准差和标准误差

  1. 标准差是用来衡量群体中所有个体的离散型。
  2. 标准误差衡量的仅仅是样本平均值的离散型。
    标准误差是所有样本平均值的标准差。

总结:

加强理解可以参考: 中心极限定理通俗介绍

置信区间

置信区间即统计学中的误差范围。
置信水平:区间的可信程度有多大,用置信水平来表示。
有一个经验是,当样本大小大于30时,抽样分布符合中心极限定理的正态分布。因此置信区间的计算区分大样本和小样本。

大样本:样本大小>=30,可以用抽样分布是正态分布的一些特征来推断总体信息。

小样本:样本大小<30,抽样分布符合t分布。

t分布和正态分布很像,曲线较为扁平,有两条长长的尾巴。

t分布用自由度来定义,自由度df=n-1 ,n指样本大小。

自由度:是指在不影响给定限制条件的情况下,可以自由变换信息的数量。可以将自由度看作估算其他信息时可有的独立信息数量。

计算置信区间:

  1. 选择总体统计量
  2. 求出所选统计量的抽样分布
  3. 确定置信水平
    置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。
  4. 求出置信区间上下限
    正态分布:先求z,再查表,然后 置信区间即为 \hat{X}加减查表查到的值乘以抽样样本的标准误差。
    抽样样本的标准误差:\sqrt{S^2/n}
    t分布:通过置信水平与自由度查值,然后 置信区间即为 \hat{X}加减查表查到的值乘以抽样样本的标准误差。
    置信区间求解方法.PNG
    t分布置信区间.PNG
上一篇下一篇

猜你喜欢

热点阅读