HR大数据机器学习与数据挖掘大数据和数据分析

忘掉平均数、看看直方图:专业化起步

2019-08-11  本文已影响0人  做数据的二号姬

如何证明自己的专业性?特别是对于我们初入HR数据分析的宝宝们,这种凹造型的装逼还是有的!

图片来自网络,如侵删

我们为什么要看平均数

平均数可能是我们接触得最早的一个统计量了,小学生都知道如何算平均数。可是大家还记得我们看平均数是为了看什么吗?

想不起来的小伙伴不要慌张,我们一起来复习一下:平均数是数据的集中趋势的一种度量方法,用来表明资料中各观测值相对集中较多的中心位置。

此处画重点了,相对集中较多,我们平时计算平均数的公式真的能代表相对集中较多的位置吗?显然不能。平均收入就是一个很好的例子。

2018年我国人均国民总收入达到9732美元,高于中等收入国家平均水平,计算发现,这约合人均年收入近67000元人民币,相当于月入5600元左右。拖后腿了?被平均了?别着急下结论,首先人均国民总收入和人均可支配收入不是一个概念,其次,收入这种问题单看平均数一个指标是不够全面的。

为了解释这个问题,我们需要了解一个概念——频率分布。

正态分布?那是啥玩意

我们先看一下频率分布的概念:

频率分布,是指在统计分组的基础上,将总体中各单位按组归类整理,按一定顺序排列,形成的总体中各单位在各组间的分布。其实质是,在各组按顺序排列的基础上,列出每个组的总体单位数,形成一个数列,称次数分布数列,简称分配数列,各组的总体单位数叫次数或频数。一般用次数分布表和次数分布图来表示。

——百度百科

官方的概念定义固然严谨,但是不容易理解,我们可以简答的理解为在每个区间内都有几个数字,比如有1000个数字在0-500元内,20000个数字在1000-3000内这样的。如果我们按照相等的区间长度进行分段(如每一段的长度都是100)统计在这个区间内的数据的个数进行绘图,我们就可以得到一个频数分布直方图(频率分布直方图)

通过频数分布直方图,我们可以更加清楚的看出数据的分布和形态——伯努利分布、正态分布、二项分布、指数分布等等。

比如最常见的分布——正态分布。

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

在实际的应用中,我们要分析的数据的分布很可能是奇奇怪怪的,比如这样:

图片来自网络,如侵删

对于这样分布的数据,我们其实很难去衡量一个所谓的观测值相对集中的中心位置,也就是在这种情况下,使用平均数很可能让我们遗漏很多信息。

平均数和分布有啥关系

不是说平均数么?咋又扯了半天的概率分布?哈哈,当然是因为平均数有没有用很大程度上取决于数据的分布形态是什么样的呀!

先说结论,当数据分布是正态分布的时候看平均数显然是没有问题的,但是当数据明显右偏或左偏(有一侧明显高)的时候看平均数就没有那么理想了

在人力资源领域,一个比较常见的问题就是人才测评的时候。举一个极端一点的例子用于理解:

假设某一道题的得分范围在0-5分之间,现在有一个来面试的新员工,得了3.5分,我们应该录用他吗?

我们的招聘需求是要招聘一个至少可以胜过一半人的优秀的人才(不然的话我们也不会启用测评工具对吧),那么一个比较常见的思路就是看这个人的得分是否在均分之上,如果是的话就进行录用。

假设我们现在有十个人的成绩,分别是:

5,5,5,4.5,4,3.2,3,1,0.9,0.8

很容易可以计算出,这是十个人的平均数是3.24,新人的成绩为3.5分,高于平均值了,应该录用。但如果我们把这个人的成绩加入进行排名的话,会发现这个人是6/11,勉强排上前一半吧,真的是很优秀的人才吗?

不用画图我们也知道,这十个人的成绩绝对不可能是一个中间多两头少的正态分布,在这种情况下,我们去看平均数就会有一些问题了。

凹造型大法

小白:平均数是XXX
大佬:分布正态吗?平均数是用什么公式算的?

本文系原创,首次发布于微信公众号:HR大数据

上一篇下一篇

猜你喜欢

热点阅读