期望与方差之一:你们究竟是什么!?
期望值(Expectation)和方差(Variance)是统计学入门绕不过去的两个指标。许多教科书一上来就用上各种符号和公式,让一些基础不好的同学摸不着头脑。本文试图用最直接的例子给各位解释一下这两个概念。
比如,现在有一个数组:
0, 1, 1, 2, 2, 2, 3, 3, 3, 3
若要求这个数组的平均数,则有:
这种计算办法,我们叫作算术平均数(Arithmetic Mean)。
让我们重新观察一下这个数组。我们发现,里面的元素(element)有自己各自的出现次数。比如0出现了1次,2出现了3次等。这些出现次数,我们称之为频数(Frequency)。本数组的频数总结如下表:
![](https://img.haomeiwen.com/i15518063/41aaf995f2bcf752.png)
于是,上面算术平均数,也可以写成加权平均数(Weighted Mean)形式:
不知道各位小时候有没有这个困惑。我记得我是在小学六年级左右学习加权平均数的,但是加权平均数与算术平均数不就是算出同一个结果吗?为什么要多发明出一个玩意来增加负担呢?这个问题直到我大一的时候学习了期望值才得以解决。原来只要稍微变换一下上式,即可得:
这时,原数组的平均数被写成其四个元素0,1,2,3分别乘以各自概率(Probability)再求和的形式。这种写法,也就是所谓期望(也称数学期望)的定义。期望值通常用希腊字母或者概率函数形式
表示:
这里有必要解释一下概率这个词。这个词是属于那种日常对话经常用到,但是要解释起来好像说不透的一个词。实际上,所谓概率就是占比(Portion)。比如一个班有32人,其中男生12人,女生20人,那么男生的概率(或占比)就是12/32 = 0.375,女生的概率(或占比)就是20/32 = 0.625 。因此,有时理解不透的话,不妨用占比甚至百分比来理解概率,会更容易一点。
因此,上面数组的期望值可以拆分成下面表格理解:
![](https://img.haomeiwen.com/i15518063/2a8e54e3e1a15a18.png)
通过上面几种形式,不论数组均值用哪种方法计算,最后的结果还是2 。因此,期望值实质就是这个数组的总体均值。这里需要注意的是“总体”一词。总体(Population)是一个统计学术语,指的是这个研究内容的所有对象。与它相对应的词是样本(Sample),也就是这个研究内容的部分对象。
如果说期望值描述的是一组数据的总体趋势(Central Tendency),那么方差(Variance)则是描述这个组数据的离散程度(Dispersion)。所谓的离散程度,指的是各个数值与均值距离形成的一个度量,其计算公式为:
其中,希腊字母为方差,希腊字母
(读sigma)为标准差(本节先不讨论),Var(X)是计算总体X的方差函数。乍一看,这个公式很复杂,我们先用一个最简单的数组为例。比如一组数据只有1,2,3,4四个数字。那么容易得到这四个数字的均值为2.5,写成期望值有:
而方差,实际就是每一个元素与均值的差的平方求和,再取均值,即:
这组数据之所以说是“简单的”,是因为每一个元素只出现了一次,因此其出现概率均为1/4,频数不明显。但是对于本文第一个数组,每个元素的频数是不一样的,因此,其方差从展开到一般,有:
因为,四个元素的频数不一样,所以上式进一步写成加权平均形式:
这个式子,也可拆分“元素乘以概率”的形式:
如果把每一项看成一个新的数组元素
的话,那么方差则可以写成下面等价的期望值形式:
最后提醒一下,和
的x用大写,因为它表示的是这个数据总体,而求和展开式的x则用小写,因为它们代表数据里面的每一个元素。