想成为大数据人才?你得拥有这些能力!
01 起
大数据行业持续升温,越来越多的人才涌进这个行业。
想知道这个行业需要什么样的人才么?
大数据的问题就交给大数据去完成吧~~
我们按特定的职位名称,爬取了拉勾网上成都地区所有大数据相关职位的招聘信息,并对这份数据做了多维度分析,得到了很多有价值的信息,构成了一份大数据人才市场分析报告。
本文节选报告第四章内容,对5类大数据相关职位的职位要求进行文本分析,给出人才市场上对这5类职位的能力(ability)要求和技能(skill)要求,供大家餐参考。
一起来看看吧!
02 分析方法
原始数据经标准化处理后,有11类职位,发布的职位数如下表所示, 我们选取职位数大于100的职位以及数据挖掘职位进行分析。数据处理流程如下,主要利用python的jieba分词:
- 加载自定义词典(提取各类职位的职位描述关键词n,v词性TOP100,人工筛选(组合、删除词语)生成一个词典)
- 利用dict(zip())和原始数据,生成{职位:职位描述}字典
- 利用dictionary.get(key,None)将相同的key对应的value字符串联结
- 利用jieba.analyse.extracr()提取各类职位的职位描述长文本的名词、动词高频词,作为该职位的能力相关要求
- 利用jieba.posseg.cut()以及flag词性筛选和dictionary.get(key,0)对字母单词计数,并降序排列,作为该职位的技能相关要求
一波操作之后,我们得到算法工程师、数据挖掘、数据分析师、Java工程师、前端工程师这五类职位的能力要求。
03 职位能力需求分析
3.1 算法攻城狮
算法工程师能力要求(左图)主要集中在模型、数学、编程等偏理论性的能力上;技能要求(右图)主要集中在Matlab、Hadoop、Java、Python等偏数学统计、数据库、建模等方面的软件或语言上。
3.2 数据挖掘工
数据挖掘能力要求主要集中在建模、聚类、分类、统计、回归、文本处理、标签等偏实际应用的方面;技能要求主要集中在Python、SQL、SAS等偏挖掘、统计的工具上,对于Hadoop等数据库相关的技能要求没有算法工程师那么多。
3.3 数据分析狮
数据分析师能力要求主要集中在行业分析、报表统计、报告专项等方面,要求具有较高的业务思维和对行业的深刻理解;技能要求主要集中在Excel、SQL、PPT等偏展示性的工具上,对于python等技能的要求没有数据挖掘多。
3.4 Java攻城狮
Java工程师能力要求主要集中在编程、架构设计、数据库、分布式等方面;技能要求主要集中在Java、Spring、Linux、Oracle、HTML等方面,更加偏向于底层语言。
3.5 前端攻城狮
前端能力要求主要集中在可视化、网页、浏览器、工程化等方面;技能要求主要集中在CSS、Web、UI、HTML、Javascript等方面,与Java工程师的技能要求差异明显。
04 总结
以上分析仅分析了几个发布职位数较多的岗位,对其职位要求的长文本进行了分析,给出了各岗位的能力要求和技能要求,作为求职者或是招聘方的参考,也可以继续进行时序分析(需要不同时间点的数据),从而洞察各类岗位人才能力需求的变动情况。
比如可以检测数据挖掘的技术动向,如出现越来越多的NLP(自然语言处理)相关的职位要求。
以上分析较为粗浅,仅供大家参考~
对了,基于本次成都地区拉勾网的招聘数据,我还做了一个人才价格计算器,
人才价格计算器
输入你的求职职位、求职公司规模、你的工作年限、学历等信息,就可以估算你在成都地区的市场均价
感兴趣的小伙伴可以参考这段代码,我上传到我的github了。