tenliu的爬虫-抓包分析

2018-01-20  本文已影响0人  tenliu的简书

利用浏览器抓包,是爬虫中的很实用的技能。在爬虫编程之前,我们要对抓取的目标页面有所了解,比如浏览器的这个请求这个页面中间都经历了什么,数据是怎么发送和返回的。

抓包的作用

我把抓包分析的作用简单列一下:

如何抓包

案例一

浏览器例如Chrome、Firfox都支持抓包,我们以Chrome浏览器为例吧,要有一个抓包的页面啊
http://www.tenliu.top/index.php/httpclient/?query=%E4%B8%AD%E5%9B%BD%202018%20%E8%8A%82%E5%81%87%E6%97%A5
浏览器中输入这个链接,页面空白处,右键“检查”,点击“network”,再次刷新页面,看到如下:

爬虫抓包分析

看似访问一个页面,其实中间进过怎么多请求。
其中左侧,每一个请求的Headers标签中内容如下四个部分:

案例二

post请求的抓包。
还是这个页面:

http://www.tenliu.top/index.php/httpclient/

我们看到有一个表单,可以post数据。在两个输入框填入内容点击提交吧,抓包看看,都是什么参数接受了你填写的内容。

案例三

抓包,获取接口。
这个页面
http://www.2345.com/corp.htm?innertab
想要获取这个页面上的各个行业和相应网址。抓取这个链接,提取页面元素。不论是用正则、xpath、beautifulsoup等等。有更好的办法吗?
抓包看看

爬虫抓包分析2

通过抓包,我们得到接口:
http://www.2345.com/js/nvaurllist1202.js?v=8.13.1
抓取这个链接进行数据提取,不是比原页面简单些吗。

更多内容请访问我的个人博客www.tenliu.top

上一篇 下一篇

猜你喜欢

热点阅读