Python爬虫实战-抓取Boss直聘招聘信息

2018-04-18 本文已影响1173人加来依蓝

爬取过程：

1、获取数据：Requests

2、解析数据：xpath

3、保存数据：pandas

在boss中查询岗位信息采用的是get的方式进行请求，页面岗位数据采用非Js的方式进行加载，但是页面元素经常变化。需要时常调整xpath读取页面元素代码。本次爬取用于对爬取时不同岗位的薪资状况的评估，不需要爬取岗位的具体要求。

爬取boss招聘信息需要先登录，通过分析，爬取时需要的信息如下：

url ='https://www.zhipin.com/c101280600/'

请求首部：

headers = {

'accept':'application/json, text/javascript, */*; q=0.01',

'accept-encoding':'gzip, deflate, br',

'accept-language':'zh-CN,zh;q=0.8',

'cookie':'……', # 需要填写

'user-agent':'……',# 需要填写

'x-requested-with':'XMLHttpRequest',

}

请求方法：get

需要爬取的页面分析：

核心代码如下图所示，不过别忘了添加headers 和导入requests、pandas、time、etree等Python附加模块。

# 调用函数代码

if __name__ =='__main__':

get_info(2)# 爬取两页数据