Datawhale统计学一周集训——任务二
2019-01-04 本文已影响11人
晓迦
学习内容
可汗学院视频 35-46集 中心极限定理、置信区间
学习笔记
中心极限定理
不管总体的分布如何,多次对样本抽样(样本容量n>30),多个样本的均值符合,的正态分布。
通过中心极限定理,可以从样本推断出整体的信息。
对一个总体抽取样本容量>30的样本多次,这样就能推断出总体的基本情况,做出一些推断,即使总体的样本不属于正态分布。
以下是摘抄来自《赤裸裸的统计学》
中心极限定理的核心要义是:一个大型样本的正确抽样与其所代表的的群体存在相似关系。
通过中心极限定理:
- 如果我们掌握了某些群体的具体信息,就能推断出从这个群体中正确抽取的随机样本的情况。
- 如果我们掌握了某个正确抽样的具体信息,就能对齐所代表的群体做出令人惊讶的精准推理。
- 如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。
- 如果我们已知两个样本的基本特性,就能推断这俩个样本是否取自同一个群体。
标准差和标准误差
- 标准差是用来衡量群体中所有个体的离散型。
- 标准误差衡量的仅仅是样本平均值的离散型。
标准误差是所有样本平均值的标准差。
总结:
- 如果你从某个研究群体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以整体平均值为中心呈现正态分布。
- 绝大多数的样本平均值都会仅仅围绕在整体平均值的周围,通过计算标准误差就可以知道这些样本平均值到底离的“近”或者“远”。
- 通过中心极限定理,我们便可知道样本均值与整体平均值之间的距离及其概率。
- 如果出现了某个概率较低的结果,我们便可以推测是不是有一些其他因素介入,而且概率越低,其他因素介入的概率越大。
加强理解可以参考: 中心极限定理通俗介绍
置信区间
置信区间即统计学中的误差范围。
置信水平:区间的可信程度有多大,用置信水平来表示。
有一个经验是,当样本大小大于30时,抽样分布符合中心极限定理的正态分布。因此置信区间的计算区分大样本和小样本。
大样本:样本大小>=30,可以用抽样分布是正态分布的一些特征来推断总体信息。
小样本:样本大小<30,抽样分布符合t分布。
t分布和正态分布很像,曲线较为扁平,有两条长长的尾巴。
t分布用自由度来定义,自由度df=n-1 ,n指样本大小。
自由度:是指在不影响给定限制条件的情况下,可以自由变换信息的数量。可以将自由度看作估算其他信息时可有的独立信息数量。
计算置信区间:
- 选择总体统计量
- 求出所选统计量的抽样分布
- 确定置信水平
置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。 - 求出置信区间上下限
正态分布:先求z,再查表,然后 置信区间即为 加减查表查到的值乘以抽样样本的标准误差。
抽样样本的标准误差:
t分布:通过置信水平与自由度查值,然后 置信区间即为 加减查表查到的值乘以抽样样本的标准误差。
置信区间求解方法.PNG
t分布置信区间.PNG