Python爬虫系列2-抓取拉钩网2020年最新互联网岗位招聘信
2020-09-19 本文已影响0人
Tony_Pm
序言
2019年即将逝去,转眼即将迎来2020年,一个全新的十年,一个互联网全新的时代:物联网时代,古语云:十年磨一剑,古时候烽火传递、飞鸽传书,交流信息很不方便。古人就幻想着有千里眼和顺风耳。能看到千里之外的地方和听到很远地方的声音。从2000年至2010年这十年,古人的愿望变成了现实;我们见证了全智能手机的发展历程;以及2010年至2020年的移动互联网从早期的2G网络过渡至3G到现在的4G网络甚至到目前已经慢慢普及但尚未成熟的5G网络的发展历程;我们也坚信未来的万物互联距离现如今的我们也并不是一件很遥远的事情。
今天抓取这个文章也是来源于我的一个学员,在帮助解决之后,顺变写成我的第二篇博客供大家学习使用。如果本文对你有些帮助-还请点赞👍关注!将持续更新更多新的文章。
image- 实战
分析网站结构,确定我们要抓取的数据内容
通过 Chrome 浏览器右键检查查看 network 并对网站结构进行分析发现我们在 ajax 请求界面中,可以看到这些返回的数据正是网站页面中Python岗位招聘的详情信息。
[图片上传失败...(image-c04b3f-1600501598132)]
之后我们在查看headers的时候发现该网站请求的方式是Post请求,也就是说在请求的过程中需要携带Form Data数据,这一块在第一篇博客中也分析过,甚至请求的是另一种Post携带方式。
传送门: https://juejin.im/post/6844904009250111502
在多次对网页界面进行分析评测的时候,发现在点击第二页的时候Form Data的携带格式发生了变化。可以看到 pn=2 肯定是咱们的当前的页数。 image
第一步:不管三七二十一 ,先请求拿到数据在说
import requests
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
# 发送携带的数据
form_data = {
'first': 'false',
'pn': 2,
'kd': 'python',
}
result=requests.post(url,data=form_data).text
print(result)
OUT:
{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.246.154.37","state":2408}
在直接请求界面的时候我们发现网站有反爬机制,不让我们请求《"msg":"您操作太频繁,请稍后再访问"》,我们携带请求头伪装一下,不行
image这里我用了一种可以快速生成headers以及cookie的工具:https://curl.trillworks.com/ 用法如下:
image image我怀疑该网站具有多重反爬策略,当我在次添加cookies试一下的时候;我们发现数据可以正常获取了;难道就这么简单就解决拉勾网数据获取的问题了吗?然而机智的我察觉到事情并没有想像的那么简单; image
我的最终解决方案是共用 session,就是说我们在每次请求界面的时候先获取session然后原地更新我们的session之后在进行数据的抓取,最后拿到想要的数据。
image
第二步:对数据进行分解
import requests
import time
# 第一步 : 请求数据
def get_requests_data(url, form_data):
# 伪装浏览器
headers = {
'Origin': 'https://www.lagou.com',
'X-Anit-Forge-Code': '0',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Accept': 'application/json, text/javascript, */*; q=0.01',
'X-Requested-With': 'XMLHttpRequest',
'Connection': 'keep-alive',
'X-Anit-Forge-Token': 'None',
}
time.sleep(3)
# 获取session
session_data = requests.session()
# 更新
session_data.headers.update(headers)
session_data.get("https://www.lagou.com/jobs/list_Python?px=new&city=%E5%85%A8%E5%9B%BD")
# 使用session发送post请求获取url及携带的参数保存到本地session中。
content = session_data.post(url=url, data=form_data)
result_data_list = result['content']['positionResult']['result']
for item_data in result_data_list:
list_data = []
list_data.append(item_data['city']) # 岗位对应城市
list_data.append(item_data['companyFullName']) # 公司全名
list_data.append(item_data['companyLabelList']) # 福利待遇
list_data.append(item_data['district']) # 工作地点
list_data.append(item_data['education']) # 学历要求
list_data.append(item_data['formatCreateTime']) # 发布时间
list_data.append(item_data['positionName']) # 职位名称
list_data.append(item_data['salary']) # 薪资
return list_data
if __name__ == '__main__':
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
# 发送携带的数据
form_data = {
'first': 'false',
'pn': 2,
'kd': 'python',
}
info_list=get_requests_data(url, form_data)
print(info_list)
运行结果:
image
第三步:对解析数据进行存储
这里通过 excel 表格的形式进行存储;
需要 pip install xlwt 安装一下 xlwt 库.
import xlwt
info_result = []
title = ['城市', '公司名称', '福利待遇', '工作地点', '学历要求', '发布时间', '职位名称', '薪资']
info_result.append(title)
# 获取请求返回数据
info_list=get_requests_data(url, form_data)
# 创建workbook,即excel
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet('lg_lagou', cell_overwrite_ok=True)
# 遍历 枚举
for item, title_data in enumerate(info_list):
for item_data, content_data in enumerate(title_data):
worksheet.write(item, item_data, content_data)
workbook.save('lg_lagou.xls')