我的常规爬虫流程

2018-10-14 本文已影响46人 hoxis

首先，爬虫不是我的本职工作，我爬虫一般是为了一些有意思的东西，获取一些信息，或者是实现一些可以自动化完成的任务，比如签到。

一般我的爬虫流程是这样的：

1、浏览器访问待爬网页，并提前打开开发者工具（F12），选中 Nework 选项卡，这样就可以看到网络交互信息；

或者，右键查看网页源代码，查找目标信息。

2、在网络交互信息流中筛选出自己需要的，然后在 postman 中模拟请求，看是否仍然可以获取到想要的信息；

postman 除了可以进行请求测试外，还有一个优势就是，代码可以直接生成，这样就可以方便得进行最终的整合了。

3、数据解析，从请求的响应中解析出我们的目标数据，至于得到数据后如何处理，那就是你的事情了。

下面就以大家耳熟能详（landajie）的豆瓣电影 TOP250 为例。

实例分析

首先，我们要访问待爬取的网页：https://movie.douban.com/top250。

一般情况下，我都是直接按下 F12 调出 DevTools，点击 Network 选项卡：

你的关注是对我最大的鼓励！

最近搜集到传智播客 2018 最新 Python 和 Java 教程！关注本公众号，后台回复「2018」即可获取下载地址。