网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包

2019-08-19 本文已影响72人我爱学python

1 引言

在编写网络爬虫时，第一步（也是极为关键一步）就是对网络的请求（request）和回复（response）进行分析，寻找其中的规律，然后才能通过网络爬虫进行模拟。浏览器大多也自带有调试工具可以进行抓包分析，但是浏览器自带的工具比较轻量，复杂的抓包并不支持。且有时候需要编写手机APP爬虫，这时候就必须需要用到其他的专业抓包工具，例如本篇介绍的Fiddler。

2 Fiddler简介

Fiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的http抓包工具之一,它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功能非常强大，是web调试的利器。

当然，除了Fiddler之外，抓包工具还有Firebug、Wireshark、Httpwatch等，为什么我们要选择fiddler呢？原因如下：

（1）Firebug虽然可以抓包，但是对于分析http请求的详细信息，不够强大。模拟http请求的功能也不够，且firebug常常是需要“无刷新修改”，如果刷新了页面，所有的修改都不会保存。

（2）Wireshark是通用的抓包工具，但是比较庞大，对于只需要抓取http请求的应用来说，似乎有些大材小用，总有一点杀鸡用牛刀的感觉。

（3）Httpwatch也是比较常用的http抓包工具，但是只支持IE和firefox浏览器（其他浏览器可能会有相应的插件），对于想要调试chrome浏览器的http请求，似乎稍显无力，而Fiddler 是一个使用本地 127.0.0.1:8888 的 HTTP 代理，任何能够设置 HTTP 代理为 127.0.0.1:8888 的浏览器和应用程序都可以使用 Fiddler。

3 Fiddler界面介绍

Fiddler界面如下：

img

Fiddler界面左侧的小窗口列表展示的是所有Fiddler抓取的包，各个包每个字段还有图标的含义如下表所示：

名称	含义
#	抓取HTTP Request的顺序，从1开始，以此递增
Result	HTTP状态码
Protocol	请求使用的协议，如HTTP/HTTPS/FTP等
Host	请求地址的主机名
URL	请求资源的位置
Body	该请求的大小
Caching	请求的缓存过期时间或者缓存控制值
Content-Type	请求响应的类型
Process	发送此请求的进程：进程ID
Comments	允许用户为此回话添加备注
Custom	允许用户设置自定义值

数据包属性第一列的图标含义如下表所示：

图标	含义
img	请求已经发往服务器
img	已从服务器下载响应结果
img	请求从断点处暂停
img	响应从断点处暂停
img	请求使用 HTTP 的 HEAD 方法，即响应没有内容（Body）
img	请求使用 HTTP 的 POST 方法
img	请求使用 HTTP 的 CONNECT 方法，使用 HTTPS 协议建立连接隧道
img	响应是 HTML 格式
img	响应是一张图片
img	响应是脚本格式
img	响应是 CSS 格式
img	响应是 XML 格式
img	响应是 JSON 格式
img	响应是一个音频文件
img	响应是一个视频文件
img	响应是一个 SilverLight
img	响应是一个 FLASH
img	响应是一个字体
img	普通响应成功
img	响应是 HTTP/300、301、302、303 或 307 重定向
img	响应是 HTTP/304（无变更）：使用缓存文件
img	响应需要客户端证书验证
img	服务端错误
img	会话被客户端、Fiddler 或者服务端终止

Fiddler界面右侧是用来显示选中数据报的详细信息，上半部分显示的是数据报的请求信息，下半部分显示的是回复信息：

img

4 PC端网页会话数据包捕获

4.1 HTTP会话数据包捕获

Fiddler打开后，会自动将浏览器代理设置为“127.0.0.1:8888”，关闭时自动修改为原来的代理，这一点上Fiddler还是比较方便的。当然你也可以手动设置浏览器代理。开始抓包是必须确保猜到了file下的Capture Traffic是勾选上的，当然也可以通过下方的Capturing按钮开启或关闭。