数据蛙数据分析每周作业

Kaggle员工离职预测实战(一)

2018-12-30  本文已影响12人  徐_清风

1. 数据来源及背景

数据来源: https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1

该数据集包含14999个样本以及10个特征, 通过现有员工已经是否离职的数据, 建立模型预测有可能离职的员工.

2. 数据概览

  1. 查看前2行和后2行数据

10个字段分别是: 员工对公司满意度, 最新评价, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.

image

可以看到除过岗位以及薪资水平是字符型外, 其余均是数值型.

  1. 查看数据类型等信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
satisfaction_level       14999 non-null float64
last_evaluation          14999 non-null float64
number_project           14999 non-null int64
average_montly_hours     14999 non-null int64
time_spend_company       14999 non-null int64
Work_accident            14999 non-null int64
left                     14999 non-null int64
promotion_last_5years    14999 non-null int64
sales                    14999 non-null object
salary                   14999 non-null object
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB</pre>

前两个特征为浮点型, 后两个为字符型, 其余为整型, 且均无缺失值.

3). 描述性统计

满意度: 范围 0.09~1, 中位数0.640, 均值0.613.
最新评价: 范围 0.36~1, 中位数0.720, 均值0.716
项目数: 范围 2~7个, 中位数4, 均值3.8
平均每月工作时长 范围96~310小时, 中位数200, 均值201
工作年限: 范围2~10年, 中位数3, 均值3.5.
工作中出现工作事故的占14.46%.
已经离职的占23.81%.
过去5年升职的占2.13%.

image

员工职业有10个水平, 其中最多的是销售, 多达4140.
薪资水平共有3个等级, 最多的是低等, 多达7316.

image

3. 数据预处理

没有缺失值, 因此不用处理缺失值. 对于记录来说, 其没有唯一标识的字段, 因此会存在重复记录, 这里采取不处理.

1. 异常值

通过箱线图查看异常值.

除了工作年限外, 其他均无异常值. 该异常值也反映了该公司员工中以年轻人为主

image

4. 可视化分析

1. 人力资源总体情况

离职3571人,占比23.81%; 在职11428人, 占比76.19%

image

2. 对公司满意度与是否离职的关系

就中位数而言, 离职人员对公司满意度相对较低, 且离职人员对公司满意度整体波动较大. 另外离职人员中没有满意度为1的评价.

image

3. 最新考核评估与是否离职的关系

就中位数而言, 离职人员的最新评价相对较高, 但其波动也大.

image

4. 所参加项目与是否离职的关系

通过下图可以发现以下2点:

image

5. 平均每月工作时长和是否离职的关系

通过下图可以看到: 离职人员的平均每月工作时长相对较长, 每月按照22个工作日计算, 每日工作时数的中位数为10.18小时, 最大值为14.09小时.

image

6. 工作年限和是否离职的关系

通过下图可以得出:

image

7. 是否发生工作事故与是否离职的关系

可以看到少部分出现工作事故, 且其中有较少部分人离职.

image

8. 5年内是否升职与是否离职的关系

5年内多数人没有升职, 离职率就相对较高.

image
上一篇 下一篇

猜你喜欢

热点阅读