拉勾网职位爬取及可视化

2019-10-28  本文已影响0人  JasonJe

Github地址:https://github.com/JasonJe/memos/tree/master/jobs_data_analysis

爬取

爬取程序为crawl.py

直接运行即可进行爬取,python3 ./crawl.py

数据可视化

可视化文档为data_analysis.ipynb

数据分析 & 可视化:

职位关键词Top 10 HR活跃时间分布

通过分析HR的活跃时间,可以知道在大概早上09:00 ~ 11:00 和下午14:00 ~ 18:00这两个时间段进行简历投递会比较好。

工作年限要求比例

大部分企业需要的是工作经验为1 ~ 3年或者3 ~ 5年的求职者,其中需要工作经验3 ~ 5年的需求最大。

平均月薪_工作年限

在工作年限要求的角度下,这里统计得到的平均最低薪酬:15978.65,平均最高薪酬:28998.44

可以看出,薪酬随着工作经验的增加也是水涨船高。

  1. 1 ~ 3年经验的求职者平均最低月薪为12k以上,最低平均最高月薪为20k以上;

  2. 3 ~ 5年经验的求职者平均最低月薪为16k以上,最低平均最高月薪为28k以上。

学历要求比例 平均月薪_学历要求

在学历要求要求的角度下,这里统计得到的平均最低薪酬:16114.64,平均最高薪酬:29445.84

公司规模比例 公司规模比例 融资情况与公司规模

这张图展现了不同融资阶段的公司规模。

招聘地区分布

可以看出,主要的公司位置集中在南山福田宝安这三个区。

技能词云

这里对爬取到的职位描述进行了分词,提取其中出现的关键词,并做相关的统计。

中文关键字Top 20

从上面的关键词Top20可以看出,所招聘的职位更加强调的是技能的把握、熟悉程度,以及工作经验、能力等。

英文关键字Top 50

这张图大致展示了职位需要大概掌握的技能,职位更加强调数据库、缓存、Linux、网络TCPWeb等的掌握程度。

而就Python后端而言,有些职位可能不仅仅要求掌握Python这门语言,还会要求掌握JavaGolangC/C++等多门语言。

上一篇下一篇

猜你喜欢

热点阅读