Python实战——济南信息安全行业数据分析
笔者为信息安全行业一入门小白,最近对数据分析行业饶有兴致,借此机会对笔者所在区域(济南)信息安全行业进行一数据分析,数据源自智联,数据中所涉及公司数据均为已公开数据,比起说涉及贵司利益,贵司对这份数据更有兴致一些吧。
数据获取
数据分析的第一步自然是获取数据,刚准备对智联动手的我发现github上已有开源的python脚本了,貌似还是挺受欢迎的。但这个脚本写的比较早,智联网站已经采用了api接口的形式返回数据,之前的脚本已经完全不能用了,无奈,只能自己写了。
早期接口采用以下形式,即搜索功能GET请求直接获取内容,然而现在数据包并不在此返回。
早期接口而现在的接口则采用fe-api返回json类型的数据:
当前接口我们来简单分析下,智联在此的涉及相当于对早期地址进行了一个转换:
https://sou.zhaopin.com/?p=1&jl=702&kw=信息安全
https://fe-api.zhaopin.com/c/i/sou?pageSize=90&cityId=702&kw=信息安全
其实新地址中还有一个pagestart
参数,pageSize
的单位是90,简单理解就是一页的内容为90个size,如果我们查看第五页的内容,则就是pagestart=360&pageSize=90
,而如果我们直接扩大pageSize=900,则就是从第一页开始请求了十页的数据,理解了这个新版的设定,我们就开工了。
#生成地址列表
def get_urls():
urls=[]
for keyword in job_name:
for i in place_name:
url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=1800' + '&cityId=' + str(i) + '&kw=' + str(keyword) + '&kt=3'
urls.append(url)
return urls
在此涉及了请求20页数据,顺便表扬一句,早期脚本有封IP防爬的风险,而现在不会了,因为我只请求了一次,只是数据量大些罢了。如果你所在的城市是北京等一线城市,请自行调整pagesize大小。
为了方便调整参数,我将配置内容放到了脚本最开始的地方:
#首先根据您的需求配置如下信息:
place_name = ['济南']
job_name = ['渗透测试', '网络安全', '信息安全']
在深思熟虑之后,在此决定获取职业名称、薪资、公司名称、地点、学历要求、工作经验六项内容,创建对应数据库、表,此处使用MySQL。
#创建数据表
def CreateTable():
mydb = Connect()
mycursor = mydb.cursor()
create_sql = "CREATE TABLE if not exists `zhilian`.`zhilian` ( `id` int(0) NOT NULL, `jobName` varchar(255) NULL, `salary` varchar(255) NULL, `company` varchar(255) NULL, `city` varchar(255) NULL, `eduLevel` varchar(255) NULL, `workingExp` varchar(255) NULL, PRIMARY KEY (`id`))"
mycursor.execute(create_sql)
mydb.close()
print ('数据表创建成功')
logging.info('数据表创建成功')
#写入数据表
def AddTable(re1,re2, re3, re4, re5, re6):
for i in range(len(re1)):
mydb = Connect()
mycursor = mydb.cursor()
sql = "INSERT INTO zhilian (jobName,salary,company,city,eduLevel,workingExp) VALUES (%s,%s,%s,%s,%s,%s)"
val = [(re1[i],re2[i],re3[i],re4[i],re5[i],re6[i])]
mycursor.executemany(sql,val)
mydb.close()
print ('数据添加成功')
logging.info('数据添加成功')
最终拿到我们想要的数据,没必要打码了吧,就当免费打广告了。接下来我们拿这些数据做点有价值的分析。
数据数据分析
首先一个公司的活跃度从招聘热度上是可以看出来的,于是我们对手头的数据进行了词频分析,并挑选了前38名公司做了一个词云:
唉?为什么是38?因为38名图刚好好看吖!
片段如下,主要用了collections词频分析库和wordcloud词云库:
# 词频统计
word_counts = collections.Counter(words) # 对分词做词频统计
# 词频展示
mask = np.array(Image.open('python.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(
font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式
mask=mask, # 设置背景图
max_words=38, # 最多显示词数
max_font_size=28 # 字体最大值
)
类似的我们来分析下薪资:
薪资词云还是忍不住为济南信息安全行业捏了把汗,但并不影响信息安全行业成为主流的现实。
过完了词云的瘾我们来看下具体数据:
学历要求主要分为6档:不限、中专、大专、本科、硕士、博士
首先借助词频统计进行数据整理:
# 词频统计
word_counts = collections.Counter(words)
word_counts_top10 = word_counts.most_common(10)
print (word_counts_top6)
然后进行绘图,主要使用2D绘图库matplotlib:
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
labels = ['不限','中专', '大专','博士', '本科', '硕士']
fracs = [12.5,0.35, 39,0.35, 45.6,2.2]
explode = [0,0,0,0,0.1,0]
plt.axes(aspect=1)
plt.pie(x=fracs, labels=labels, explode=explode, autopct='%3.1f %%',
shadow=True, labeldistance=1.1, startangle=90, pctdistance=0.6
)
plt.show()
得到如下学历需求饼状图:
学历需求饼状图我们可以看到,济南信息安全行业对于学历相对宽松,本科学历基本可以自由选择,不会在学历门槛上绊倒。
接下来想到一个问题,个人习惯性称呼渗透测试工程师的职业在各HR手中是如何命名的呢?显然,这个数据有助于我们进行职业检索:
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
def job_num():
job =[]
fr=open('job.txt','r',encoding="UTF-8")
jobs=fr.readlines()
fr.close()
for i in range(len(jobs)):
job.append(jobs[i])
salary=[]
fr=open('num.txt','r',encoding="UTF-8")
salarys=fr.readlines()
fr.close()
for i in range(len(salarys)):
salary.append(salarys[i])
plt.barh(job,salary)
plt.show()
if __name__ == '__main__':
job_num()
这一刻着实有点意外,渗透测试工程师的称呼貌似在济南并不流行,正在找工作的小伙伴们注意啦,试着搜下信息安全工程师吧~
职业名称接下来,对于不了解济南的人讲,肯定会好奇信息安全行业在济南是如何分布的呢?
我们首先进行词频统计,过半的公司只标注了济南,未具体到具体区县,本次不列入统计。然后借助封装了百度开源图表库echarts的pyecharts库来进行地图定位:
from pyecharts import Map
attr = ['高新区', '历下区', '市中区', '历城区', '天桥区', '槐荫区','商河县','济阳县','章丘区','长清区','平阴县']
values = [61, 11, 7, 7, 4, 2, 0, 0, 0, 0, 0]
map = Map("济南地图",'济南', width=1200, height=600)
map.add("济南", attr, values, visual_range=[1, 10], maptype='济南', is_visualmap=True,
visual_text_color='#000')
map.render(path="JN.html")
JN
这一块我的内心是崩溃的,今年高新区是后来加的,从历城区历下区各拿出了一块拼凑的,但是百度地图显然没有将高新区作为一个行政区对待,emmmm,高新区的数据崩掉了鸭,这完了鸭!
出于私心,将高新区的数据历城区历下区七三分成,勉强作为最终数据。
emmm,最终恭喜历城历下区夺得冠亚军!咳咳,说到底,信息安全行业重心出现在高新区也是完全合乎情理的。
什么?少了工资排行,咳咳,这么敏感的小东西感兴趣还是私下py吧。作为python数据分析的初体验,就到这里~
最后奉上2019版最新智联招聘信息获取脚本,找到工作的小伙伴记得给小心心~
嘤~