常见统计量及关系(一)-统计量、参数等
2019-06-10 本文已影响0人
田浩thao
1、前言
在机器学习中经常会出现各种各样统计学中的名词,对此,此系列文章将对一些常见统计量及相互关系作简单介绍。本文为第一篇。
2、常见名词
-
统计量:统计量是指通过对样本计算,得出的关于样本的一些描述值,例如,从某学校随机抽取100个人,其平均身高、平均年龄等,这些都是统计量。样本均值一般用
表示,样本个数用n表示。
-
参数:参数是指通过对总体计算,得出的适用于总体的一些描述值,总体均值一般用
表示,总体个数用N表示。
注:样本是从总体中抽样得到的,样本是总体的代表,所以样本统计量可以作为总体参数的估计 -
均值(mean):一组数据的平均值。均值使用范围很广,但是均值无法反映数据的离散程度,以及无法看出一组数据中有多少数据靠近均值,有多少是远离均值的。
-
中位数(median):一组数据的第50百分位的取值。也就是将数据从小到大排序后,处于最中间位置的数据(如果是数据的个数是偶数,则此时中位数是中间两个值的平均值)。
-
众数(mode):一组数据出现次数最多的数值。如果数据中出现次数最多的数值不止一个,则称为多峰,常见的有双峰分布。
-
偏态(skew):一组数据,大部分数据集中在一端,剩余小部分分布在另外一端,这一小部分数据导致整个数据分布出现一个尾部。
-
正偏(positive skew):大部分数据集中在较小值附近,其余小部分分布在较大值附近(正的意思是有个尾部在右边)。
-
负偏(negative skew):大部分数据集中在较大值附近,其余小部分分布在较小值附近(负的意思是有个尾部在左边)。
-
异常值(outliers):一般是指超过2倍标准差的数据。
3、一些现象
- (1)正态分布中均值、中位数、众数是同一个值,是正态分布的分布中心;
- (2)均值会受“异常值”影响,样本量越小,影响越大。(假想一组数据大部分都在5左右,但是有一个特别大的值,例如100,则平均之后可能会远超过5)
- (3)正偏的均值略大于中位数,负偏均值略小于中位数。(正偏分布中数据大部分集中在较小数附近,所以中位数会比该较小值略大一些,但是均值却会比该较小值大的多一些。)
以上内容如有理解不当,请指出,谢谢!另,文章中有些内容来源于一些书籍或其他博客,这里就不一一列举,如有侵权,请与我联系删除。