Coursera Basic Statistics 统计基础 笔
这两天修完了Coursera 上的 Basic Statistics - University of Amsterdam
具体的笔记就不搬了,这个课不错,很多生动的案例,老师很萌,推荐给统计入门的同学。
这里我分享一些让我百思不得其解的问题,和后来是怎么弄清楚的。
标准差公式
总体标准差:
\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu )^2}
样本标准差:
s = \sqrt{\frac{1}{N-1}\sum_{i=1}^{N}(x_i-\bar{x} )^2}
这里最让我纳闷的事情就是为什么样本标准差除的是 N-1 而不是N. 原来这个和自由度还有关系。原来如果直接用样本均值套到总体标准差的公式里,求出来的方差会偏小。所以用 N-1 把结果『放大』一点,就能获得方差的正确的估计了。
换一个说法,在求方差之前我们已经有了样本的平均值,那么样本的自由度就为 N-1, 所以除以 N-1 可以获得方差的无偏估计。
参考
z-table & t-table
正态分布的公式
总看到用公式求值的时候总是用z table找z-value对应的p-value. 例如week 5的一个例子:从巴黎的hispter中随机抽一个,他读 On the road 超过1000分钟的概率是?做法就是用sample的 mean 和 standard deviation 求出 z-value, 再查表得出累积概率。就是这个:
[站外图片上传中...(image-5c654f-1529115674251)]
我一开始还以为每个sample都有不同的 z-table, 在老师搬出z-table的时候还很纳闷,为什么总有这个table?
后来才明白这是标准正态分布表, 因为 z-value 是把 sample standardize 后的值,反正有了z-value就可以查表知道从0到 z 的面积.
然后问题又来了,这个表是哪里来的?顺手Google了一下。我们已经知道了正态分布的概率密度函数:
这里分清三个概念:
- PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
- PMF : 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
- CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。
pdf 和 pmf 的不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。
我们通过查 z-table 得出的值是cdf. 如果要求从0到 z 中的某个区域的面积,我们可以通过积分得出
[图片上传失败...(image-93fd77-1529115674251)]=\int_{x_{1}}{x_{2}}\frac{1}{\sigma&space;\sqrt{2\pi&space;}}e{-0.5(\frac{x-\mu&space;}{\sigma&space;})^2})
换句话说,cdf 是pdf的积分,pdf是cdf的导数。我没学过积分所以到这就不是我理解范围之内的了。总之可以愉快地使用 z-table了,t-table也是同理。
不过 t-table还有一个麻烦的地方就是单尾双尾检测 (One tail & two tails) 时看表略有不同。标准的 t-table 会标明 level of significance.
参考:
- 概率中的PDF,PMF,CDF
- Where do the values in the Z-table come from? By: Krista Floer
- Where do the values in a z-table come from?
标准差和标准误 SD & SEM
这个概念真的很想让我死啊,想了一会儿想明白了,过了几天又不明白了,写下来防止下次又忘了。
其实标准差很好理解的,上面也说了总体标准差 α 的公式。
但标准误真的很饶人。先上公式:
\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}
根据中心极限定理:
Sampling distribution of sample mean approaches a normal distribution with mean μ and variance σ^2/n as the sample size becomes large.
大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
Standard error of mean 的意思是样本均值与总体均值的近似度。样本越大,标准误差就越小,样本均值与总体均值也就越接近。
图片来源:Piers Support - YouTubeStandard error of the mean is a measure of how far your sample mean is likely to be from the true mean of the population. So lower the SEM, the more likely your calculated mean is close the actual mean (Piers Support).
SD - variability of data
SEM - precision of data
如上图,多次取样会得到不同的 sample mean, 将这些 sample 汇总得到的 SD of sample mean 就是 standard error.
例(如下图):当SD等于10时,不同的样本大小会得到不同的SEM. 样本量越大,其平均数越接近总体平均数,根据公式,SEM越小,也就越精确。
图片来源:http://davidmlane.com/hyperstat/A107371.html
这些都还好懂,最让人不懂的是根号n是怎么来的。维基百科说:
https://en.wikipedia.org/wiki/Standard_error#Derivations
理解一:如果按照定义求 SEM,N 次取样,variance of sampling distribution of sample mean (σ 为总体标准差)
那么 SEM 的公式直接开方就 make sense了。
但其实 SEM 公式里的 n 是样本大小而非取样次数,这点我一直没有理解。
理解二:如果把 SEM 单纯看成描述样本精确度的一个系数,除以根号 n,样本越大 SEM 越小,越精确。
理解一是 N 次取样的标准差,所有的取样有一个标准差(标准误)。理解二是描述一次取样的精确度,每次取样都有不同的标准误。
参考
- 有没有懂统计的,标准误为什么等于标准差除以根号n,求公式推导过程? - 知乎
- Standard Deviation and Standard Error of the Mean
- Standard error - Wikipedia
Update: Standard Error of the Mean
晚上睡觉前看了 Charles Wheelan 写的Naked Statistics 第八章,对中心极限定理和标准误有非常详细的解释。书中作者以 Americans' changing lives 的数据为例解释了标准误的大小和其精确度的关系。
下图1) 样本量 n=20, 从总体随机取样;2)样本量 n=100, 从总体随机取样;3)样本量 n=100, 从女性随机取样;
Naked statistics, chapter 8我们可以看到,样本量小的时候数据比较分散,样本量大的时候更为集中,当总体的平均值下降时,随机样本的平均值也会下降(男性+女性 VS 女性)。
A large standard error means that the sample means are spread out widely around the population mean; a small standard error means that they are clustered relatively tightly.
标准误作为样本均值的标准差,和总体标准差 σ 成正比,和样本量 n 成反比,所以一个是分子,一个是分母。
参考
置信区间 Confidence Interval
后来我才明白我纠结的地方不在标准误公式,而是当总体标准差 (population standard deviation) 未知时求置信区间的方法。
首先,根据中心极限定理,样本平均数会接近,但或多或少和总体平均数有所偏差。如下图,在正态分布中,68%的样本平均数(我们会取样很多次)在离同体平均数一个标准差范围内,95%的样本平均数在离同体平均数两个标准差范围内。
https://www.quora.com/Is-there-a-derivation-for-the-68-95-99-rule-in-normal-distribution如果我们已知总体标准误和总体平均值,我们可以推测68%的样本平均数离总体平均值有一个标准误的距离,从而得知这些样本平均数的范围。
反过来,如果我们已知总体标准误和一次取样的平均值,就可以推测出离总体平均数若干个标准差的范围(误差范围),最大误差范围为E:
\bar{x}-E<\mu<\bar{x}+E当总体标准差已知时,我们采用 z 检验,置信区间的公式为:
\mu=\bar{x}\pm Z_{\frac{a}{2}}\frac{\sigma }{\sqrt{n}}但现实情况中一般我们都不知道总体标准差,所以我们用 t-检验(别问我为什么). 因为总体标准差未知,我们只能用样本标准差来推测总体 estimate the Standard Error of the Mean:
\mu=\bar{x}\pm t_{\frac{a}{2}}\frac{s}{\sqrt{n}}如果看 t 分布的表,信度相同时 t 值会比 z 值大一些,多少将 maximum error of the estimate 扩大了。