机器学习相关的统计学知识
中心极限定理
找猴子的那个答案
https://www.zhihu.com/question/22913867
中心极限定理
- 样本的平均值约等于总体的平均值。
-
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
中心极限定理
中心极限定理应用
1.用样本来估计总体。
-
任何一个样本的平均值将会约等于其所在总体的平均值。
2.样本平均值呈正态分布
3.如何用样本估计总体
我们已经知道,一个数据集的标准差是数值与平均值的偏离程度。当你选择一个样本后,相比总体,你拥有数据的数量是变少了,因此,与总体中的数值偏离平均值的程度相比,样本中很有可能把较为极端的数值排除在外,这样使得数值更有可能以更紧密的方式聚集在均值周围。也就是说,样本的标准差要小于总体标准差。所以,为了更好的用样本估计总体的标准差,统计学家就将标准差的公式做了像下面图中公式中这样的改造。
样本估计总体的标准差
即原来的标准差公式是除以n,为了用样本估计总体标准差,现在是除以n-1。这样就是的标准略大。一般用字母s表示用样本估计出的总体标准差。
很多书上都会把除以n-1的标准差叫做样本标准,其实会给很多人造成误解。其实这个样本标准差的目的是用于估计总体标准差。
你可能会疑惑,那我什么时候标准差除以n还是n-1呢?
那就要看你使用标准差的目的是什么。
如果你只是想计算一个数据集的标准差,那么就除以n,例如你有100个毕业与清华人的收入,只是想了解这100个人构成的数据集的波动大小,那你就用除以n的标准差公式。
如果你想把这100个人当成一个样本,用这个样本来估计出总体(所有毕业与清华人的收入)的标准差,那么就除以n-1的标准差公式。
标准误差
标准差是用来衡量数据集的波动大小。比如毕业于清华大学所有人的收入分布。
标准误差其实也是标准差,只不过它是所有样本平均值的标准差。
标准差与标准误差
标准误差的简单公式,这个图其实就是前面我们讲过的正态分布概率图,只不过这里的横轴是样本平均值的大小,纵轴是该平均值出现的概率。这里是标准误差。
标准误差的简单公式
大数定律
- 如果数据少,随机现象可以看上去很不随机。甚至非常整齐,感觉好像真有规律一样。
-
小数定律是说,如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系都没有。
小数定律 - 如果统计数据不够大,就什么也说明不了。
- 大数定律说如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值。
-
某个事件的期望值,也就是收益,实际上是所有不同结果的和,其中每个结果都是由各自的概率和收益相乘而来。
横轴是扔筛子的次数,纵轴是筛子抛出点数的期望