浏览器抓包辅助爬虫（post)

2021-09-13 本文已影响0人 _Irving

背景：有些网站不能直接查看源码看到页面需要爬取的信息，此时就需要使用浏览器自带的抓包（f12)

例：有道翻译

1、打开网站，点击F12,弹出抓包页面

2、此时需要刷新一下页面，抓取页面的js(很重要）
3、页签：network（抓包请求）；console(控制台）；elements(元素）
4、点击network页签，我们只需关注如下几个信息:fetch/xhr(异步动态请求）

5、先在xhr里找请求，找不到就去all里面找，点击请求内容，查看”preview"(预览）信息，我们看到里面含有我们页面输入的内容，大体就是我们需要找的请求了，我们还可以看reponse查看是否有我们需要的内容

6、然后我们复制headers里面的内容，如下信息：url，headers，data（传参）

7、但是我们可以查看传参信息中如果有加密内容的话，如下：

8、我们可以点击右上三个店，点击search，尝试搜索传参内容：salt其他都行；我们查到如下js下存在这个内容，我们点击这个js

9、此时进入了source里面，看到js内容，现在显示为一行内容，为了方便查看，我们点击左下角的花括号，就可以格式化查看了

10、如上，我们就可以搜索找到具体的加密内容代码了，不明白的话，我们可以复制js代码再console出复制运行查看内容,我们就可以具体分析代码实现内容，然后在python里面实现同样作用

11、例如上面的内容是11位时间戳数和headers里面的user-agent,有的可以直接调用，有的需要我们写python代码实现

12、如果其中有内容无法确定的，我们还可以直接在js上打断点，重新翻译后就可查看具体内容，如下（这些都可以辅助我们解决加密内容），我们知道所有内容后就可以写代码了