我的常规爬虫流程
2018-10-14 本文已影响46人
hoxis
首先,爬虫不是我的本职工作,我爬虫一般是为了一些有意思的东西,获取一些信息,或者是实现一些可以自动化完成的任务,比如签到。
一般我的爬虫流程是这样的:
1、浏览器访问待爬网页,并提前打开开发者工具(F12
),选中 Nework
选项卡,这样就可以看到网络交互信息;
或者,右键查看网页源代码,查找目标信息。
2、在网络交互信息流中筛选出自己需要的,然后在 postman
中模拟请求,看是否仍然可以获取到想要的信息;
postman 除了可以进行请求测试外,还有一个优势就是,代码可以直接生成,这样就可以方便得进行最终的整合了。
3、数据解析,从请求的响应中解析出我们的目标数据,至于得到数据后如何处理,那就是你的事情了。
下面就以大家耳熟能详(landajie)的豆瓣电影 TOP250 为例。
实例分析
请求梳理
首先,我们要访问待爬取的网页:https://movie.douban.com/top250。
一般情况下,我都是直接按下 F12
调出 DevTools,点击 Network 选项卡:
最近搜集到传智播客 2018 最新 Python 和 Java 教程!关注本公众号,后台回复「2018」即可获取下载地址。