常见统计量及关系（一）-统计量、参数等

2019-06-10 本文已影响0人田浩thao

1、前言

在机器学习中经常会出现各种各样统计学中的名词，对此，此系列文章将对一些常见统计量及相互关系作简单介绍。本文为第一篇。

2、常见名词

统计量：统计量是指通过对样本计算,得出的关于样本的一些描述值，例如，从某学校随机抽取100个人，其平均身高、平均年龄等，这些都是统计量。样本均值一般用 $\overline{X}$ 表示，样本个数用n表示。
参数：参数是指通过对总体计算，得出的适用于总体的一些描述值，总体均值一般用 $\mu$ 表示，总体个数用N表示。
注：样本是从总体中抽样得到的，样本是总体的代表，所以样本统计量可以作为总体参数的估计
均值（mean）：一组数据的平均值。均值使用范围很广，但是均值无法反映数据的离散程度，以及无法看出一组数据中有多少数据靠近均值，有多少是远离均值的。
中位数（median）：一组数据的第50百分位的取值。也就是将数据从小到大排序后，处于最中间位置的数据（如果是数据的个数是偶数，则此时中位数是中间两个值的平均值）。
众数（mode）：一组数据出现次数最多的数值。如果数据中出现次数最多的数值不止一个，则称为多峰，常见的有双峰分布。
偏态（skew）：一组数据，大部分数据集中在一端，剩余小部分分布在另外一端，这一小部分数据导致整个数据分布出现一个尾部。
正偏（positive skew）：大部分数据集中在较小值附近，其余小部分分布在较大值附近（正的意思是有个尾部在右边）。
负偏（negative skew）：大部分数据集中在较大值附近，其余小部分分布在较小值附近（负的意思是有个尾部在左边）。
异常值（outliers）：一般是指超过2倍标准差的数据。

3、一些现象

（1）正态分布中均值、中位数、众数是同一个值，是正态分布的分布中心；
（2）均值会受“异常值”影响，样本量越小，影响越大。（假想一组数据大部分都在5左右，但是有一个特别大的值，例如100，则平均之后可能会远超过5）
（3）正偏的均值略大于中位数，负偏均值略小于中位数。（正偏分布中数据大部分集中在较小数附近，所以中位数会比该较小值略大一些，但是均值却会比该较小值大的多一些。）

以上内容如有理解不当，请指出，谢谢！另，文章中有些内容来源于一些书籍或其他博客，这里就不一一列举，如有侵权，请与我联系删除。

常见统计量及关系（一）-统计量、参数等

1、前言

2、常见名词

3、一些现象

猜你喜欢

热点阅读