爬取60000个岗位,爬虫告诉想要找或换工作的你,城市和行业,该
文/寻找不同的蜜蜂
51 job作为全国发布招聘信息最大的网站之一,为应届生和在职人员提供很好的求职平台。只要在搜索窗里面输入目标职位,百至千页的招聘信息触手可及。
记得几年前找工作时,一页页翻,点进去看职位需求等等。遇到心仪职位(500强,高薪,出国机会等等),将职位名称、公司名称、薪水和网址拷贝到Excel中,最后,注明投简日期,做到对发出去简历跟进,也算是很好管理了简历的去向。
51 job 信息板块就像做项目一样,跟进每一份简历的时间节点,做到了如指掌。但是,仔细想想,这中间是否存在一些潜在问题?似乎,当时是没有觉察到。
仔细回想这个流程,发现,从网页拷贝这些招聘信息到Excel,累计至少200+职位。假如拷贝一次心仪职位的时间为20秒(职位名称、薪资、单位名称、地点和网址),那么就重复粘贴的时间就耗费66分钟。(实际情况,会比这个时间长)
这似乎是之前完全没有意识到的一件事情。查看几百个职位信息已经上限,几千页的信息也只能放弃。这个,我想找工作的你,深有感触。
在频繁粘贴之余,也曾发出过这样的感叹,要是这些信息,能直接汇总到Excel中,就好了。直接快速查看目标职位,遇到感兴趣职位,再去看具体信息。这不但极大提升信息的检索效率,而且有利于分析做出最终的选择。
但是,那时最想说的一句话:“别想这些没用的,赶快投简历!”
现在想想,这种人为翻网页,是无法最大化获取信息。换句话说,你在无形中已经丢失一些机会,说不定这些机会,会改变你的人生轨迹。
你也许会说,不就是一页页翻着看吗?那么,我想请问你,面对有2000+页的职位信息,你能看多少页?500+页可以封顶了吧!再往后看,你的耐心,最终,也会沦为烦躁。
1/ 信息获取
互联网时代,是一个信息过载的时代,我们每天被各种各样信息包裹。招聘信息科学全面获取,对你做出正确求职选择,有极其重要的作用。那么,怎样才能在极短时间,获取这些信息为你所用呢?
爬虫,或许,是当下,最有用的工具了!几行代码,爬取你想要的任何信息。一张excel表,记录你投递的所有职位。这是多么高效的事情。而且,通过可视化这些信息,还有意想不到的收获。
采用requests+beautifulsoup组合,通过for循环选择特定的信息,如抓取职位名称,CSS选择器可以写成p span a。需要注意的是,一定要区分子父节点之间的从属关系,否则无法找出想要的信息。
信息获取其实,爬取招聘信息,无外乎那几个步骤。写完一个,运行一下,看是不是你需要的信息。在获取文本后,会出现不需要的空格和换行。strip()和replace(“\n”,“”)可以将其去除,方便又简单。
就拿JAVA工程师职位为例,总共8700个职位,最终爬取到Excel表格中,这样可以清楚的看到每一项职位对应信息。真的,不要太方便。
爬取数据汇总但请注意,不要爬太狠,中间不休息,一口气爬个上千页,这样会产生大量的流量。影响其他用户。被检测出来,封IP的可能性非常大,慎重。
我的办法是,设置时间间隙,爬一页休息5-10秒,再继续。这样就很好的模拟用户浏览网页所打开网页的时间。(使用IP池这种高端手段,目前,还一脸懵,后面学习一下)
当拿着这份招聘手册,是不是一览众山小的感觉呢?挑出你的目标薪资/地区,再仔细查看招聘内容,这样会更高效。
2/ 数据可视化
面对这些大数据,难道就不想了解一下更为详细的信息?比如,各个行业招聘,哪些地区比较集中,需求更大?媒体中报道的一些行业,需求真的那么大?
数据可视化,将是一个非常犀利的工具。通过这个可视化模块,可以一览各个行业在全国各地的分布,这样你会有一个直观的认识,对后续选择判断,做出决策会有帮助。
可视化模块3/ 大数据分析
在本次分析中,爬取汽车行业2类职位(技术支持和结构设计),互联网2类职位(java工程师和测试工程师),房地产2类职位(室内设计和财务经理),金融行业2类职位(融资专员和金融分析),总计4个行业,8类职位,共计60000个岗位。
4个行业,8类职位,共计60000个岗位3.1/ 地理位置分布分析
1) 汽车行业
通过对汽车行业,2类岗位在全国分布可知,高密集区域在上海及其周边城市(以大于105为最低取值点)。
技术支持岗位 结构设计岗位2)互联网行业
通过对互联网行业,2类岗位在全国分布可知,高密集区域分布为:北京、上海和广州(以大于105为最低取值点),呈现三足鼎立的态势,构成了互联网行业的金三角。
Java工程师岗位 测试工程师岗位3)房地产
通过对房地产行业,2类岗位在全国分布可知,相比汽车和互联网行业,需求分布较为均匀(以大于105为最低取值点)。
室内设计岗位 财务经理岗位4)金融
通过对金融行业,2类岗位在全国分布可知,高密集区域分布为:上海和广州(以大于105为最低取值点)。
融资专员 金融分析3.2/ 行业所在城市分析
统计前提,8类职位中,只要有1类职位需求大于100, 则统计该职位所在城市。
全国有22个城市符合以上前提(排除异地招聘以及省名称命名地点)。可以明显看出,高需求的城市主要集中在上海、广州、深圳、北京、杭州、武汉和成都。其中,上海的需求遥遥临先,高达10000+。
全国22城市,统计8个职位总需求分布 全国22城市,统计8个职位详细需求分布1)一线城市
北京,主打互联网,约2000+个岗位(占4个行业总和50%以上),金融和汽车次之。
上海,汽车(3000+)、互联网(3000+)和金融(3000+)。进一步说明,上海的机会确实很多,就当前8类职位而言(10000 +),让很多城市无法PK。
广州和深圳对融资专员的需求高的惊人,共计6500+。换句话说,从事金融行业,去这两个城市打拼不会错。
一线城市,需求汇总2)部分新一线城市
成都,4个行业需求基本持平。
杭州,也是互联网行业的聚集地,占本市需求的60%以上。
武汉、南京、郑州和长沙,汽车和互联网需求较高,总和超过60%。
西安,互联网和房地产占本市需求的60%以上。
东莞,金融占本市需求的35%。
重庆、苏州、无锡和天津,汽车行业为主,约占4个行业总和的50%。
新一线城市,需求汇总4/ 总结
通过大数据,对当前招聘市场有一个理性和科学的认识,为判断和决策提供一些数据上的依据。
数据只有当可视化以后,才能显示出它巨大的作用,数据测算,行业预知,也只是时间问题。
以上分析,希望对找工作的你,在做决策时,提供一些帮助。
(以上数据,均爬取各自职位对应最大页数(分析基于8类职位)。数据可能会存在重复,仅供参考。)