平均值指标的困惑

2019-03-14  本文已影响0人  cyinius

万能的统计指标?

如果想了解社会、经济某个方面的发展状况,采用能够反映其特征的统计指标无疑是非常便捷的方式。例如:

在众多经济指标中,有一类指标因为其简洁易懂而被广泛使用,这就是“平均值”指标。对于社会管理者(例如:政府官员)或者经济管理者(例如:企业高管),平均值指标是一个非常强大的管理工具,基于原始数据可以统计各种平均值指标,然后衍生出一整套 KPI;管理者看到 KPI 就像看到了整个体系的运作一样,然后基于此作出精准的决策。正是基于这一套数据化管理和运营的理念,大数据的观念才能如此深入人心。

但是,统计指标是否万能的?是否真的能够让使用它的人得到关于现实世界的真实情况?

平均值的疑惑

在各类统计指标中,平均值指标是使用最为广泛的指标之一,例如:社会平均工资等指标。平均值是一个非常好理解的统计指标,反映了被统计个体的平均情况,并且非常好计算,具有很好的统计学特性等等。

如果想计算社会平均工资,在收集到所有拿工资的人的工资数据,将所有工资数据加总并除以拿工资的人数就得到社会平均工资; 其它指标的平均值的计算跟这个类似。

让我们来看一个实际的例子:

困惑解析

正态分布

德国马克:数字10右上角有一个正态分布的曲线

对统计略有了解的人可能都知道有一个叫“正态分布”的东西,这是统计学里面最重要的一个概率分布。正态分布重要是因为它可以描述现实世界中非常多的随机变量,例如:

关于正态分布,大家记住一点就好[3],符合正态分布的随机变量的观测结果绝大部分都在其平均值附近。这里用一个假想的例子来说明正态分布的这个特性:假如城镇私营单位就业人员年工资符合正态分布(实际上不符合),那么从国家统计局发布的2017年城镇私营单位就业人员年平均工资45761元这个信息可以知道,全国在私营单位就业的人员的工资都在45761元附近,工资高的不会比平均工资高很多,工资低的也不会比平均工资低很多。

正态分布是如此的常见,但是依然有很多观测结果无法采用正态分布,特别是社会经济领域的指标,例如:年工资、GDP等。对于这类不是正态分布的指标,有一个专门的名词叫“偏态分布”,让我们一起来看一下。

偏态分布

正态分布分布表示指标的取值比较高或者比较低的比例差不多,而偏态分布则不同:

更加学术化的说法是:如果指标的中位数[4]小于平均值,指标称为左偏;如果指标的中位数大于平均值,指标称为右偏。

如果一个指标符合偏态分布(左偏或者右偏),采用平均值将无法很好地描述该指标的整体情况。换句话说,仅仅查看偏态分布的平均值指标将导致对该指标的误解,正如其名,统计指标反映的结果是有偏差的。

偏态分布的平均值困惑

统计局发布的:城镇私营单位就业人员年平均工资45761元,相比于2016年增长了6.8%,能够说明的问题如下:

统计指标 统计指标表面反映的 大部分人的困惑 实际情况
年平均工资45761元 所有人的年工资差不多是45761元 自己收入没有那么多,拖了后腿,要不就是统计局数据造假 大部分人的年工资比45761元低,少数高收入的人拉高了平均水平
增长了6.8% 所有人的年工资相对于2016年差不多增长了6.8% 自己的收入没有增长那么多,拖了后腿,要不就是统计局数据造假 大部分人的收入增长没有6.8%,少数收入高增长的人拉高了平均水平

结论

统计指标并非万能,权威机构发布的统计指标也可能无法反映社会经济的真实情况,搞清楚统计指标的特征才能最大限度的消除统计指标带来的困惑。

注释


  1. 经济参与者包括正在积极找工作的失业者。

  2. 大家不要对中国政府的统计部门有偏见,各级统计部门都在《中华人民共和国统计法》的要求下开展工作,统计部门所发布的各种统计指标的含义、统计口径、数据采集方法都有公开说明,加上不同指标之间存在的逻辑数量关系校验、信息技术的广泛使用等等,这些基本上杜绝了统计造假的可能性。

  3. 这里不描述正态分布的数学细节,感兴趣的读者可以在网上找到非常多的参考资料。

  4. 中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。

上一篇 下一篇

猜你喜欢

热点阅读