程序员just py

用python爬取招聘信息

2018-07-10  本文已影响39人  李明轩Matthew

今天模仿完成了一个小实验,通过python脚本爬取应届生招聘网招聘信息的标题和链接(模仿自https://blog.csdn.net/yaojingdedaogao/article/details/53175458),结果大致如下:

应届生重庆

1.源代码

jupyter notebook

2.解释:

3.收获:

1 浏览器获取headers,也是从同样位置得知网页编码格式
2 find_all()返回的是列表,fain返回的是搜索的结果
3 os.getcwd()获取当前工作路径,os.path.join()拼接路径
4 request.get()返回的是结构体content,print不出来,需要print(content.text)

4.TBD:

1 举一反三,换boss直聘网站试试(之前试过一次,中文会变成乱码,不知是不是和应届生的页面编码不同导致的)

乱码是因为第二段代码中的内容编码格式设置,应届生中无编码格式,因此可以转换,但是boss直聘页面有编码格式utf-8,这是再设置转为gbk就变成乱码了,因此在举一反三中删除了对内容编码格式设置的语句,文字恢复正常

举一反三 抓取boss直聘信息 举一反三 boss直聘抓取源码
上一篇下一篇

猜你喜欢

热点阅读