用python爬取招聘信息

2018-07-10 本文已影响39人李明轩Matthew

今天模仿完成了一个小实验，通过python脚本爬取应届生招聘网招聘信息的标题和链接（模仿自https://blog.csdn.net/yaojingdedaogao/article/details/53175458），结果大致如下：

应届生重庆

1.源代码

jupyter notebook

2.解释：

第二段代码通过调用request库，使代码模仿浏览器（header）对目标网站发起访问，获取后续的网页内容content。（chrome浏览器->network->任意name->headers）
第三段代码调用os库，类似linux命令生成JD文件夹
第四段代码调用BeautifulSoup库，提取页面中的HTML元素，比如td、class、a、href等

3.收获：

1 浏览器获取headers，也是从同样位置得知网页编码格式
2 find_all()返回的是列表，fain返回的是搜索的结果
3 os.getcwd()获取当前工作路径，os.path.join()拼接路径
4 request.get()返回的是结构体content，print不出来，需要print(content.text)

4.TBD：

1 举一反三，换boss直聘网站试试（之前试过一次，中文会变成乱码，不知是不是和应届生的页面编码不同导致的）

乱码是因为第二段代码中的内容编码格式设置，应届生中无编码格式，因此可以转换，但是boss直聘页面有编码格式utf-8，这是再设置转为gbk就变成乱码了，因此在举一反三中删除了对内容编码格式设置的语句，文字恢复正常

举一反三抓取boss直聘信息

举一反三 boss直聘抓取源码

用python爬取招聘信息

1.源代码

2.解释：

3.收获：

4.TBD：

猜你喜欢

热点阅读