浏览器抓包辅助爬虫(post)

2021-09-13  本文已影响0人  _Irving

背景:有些网站不能直接查看源码看到页面需要爬取的信息,此时就需要使用浏览器自带的抓包(f12)

例:有道翻译

1、打开网站,点击F12,弹出抓包页面

2、此时需要刷新一下页面,抓取页面的js(很重要)
3、页签:network(抓包请求);console(控制台);elements(元素)
4、点击network页签,我们只需关注如下几个信息:fetch/xhr(异步动态请求)

5、先在xhr里找请求,找不到就去all里面找,点击请求内容,查看”preview"(预览)信息,我们看到里面含有我们页面输入的内容,大体就是我们需要找的请求了,我们还可以看reponse查看是否有我们需要的内容

6、然后我们复制headers里面的内容,如下信息:url,headers,data(传参)

7、但是我们可以查看传参信息中如果有加密内容的话,如下:

8、我们可以点击右上三个店,点击search,尝试搜索传参内容:salt其他都行;我们查到如下js下存在这个内容,我们点击这个js

9、此时进入了source里面,看到js内容,现在显示为一行内容,为了方便查看,我们点击左下角的花括号,就可以格式化查看了

10、如上,我们就可以搜索找到具体的加密内容代码了,不明白的话,我们可以复制js代码再console出复制运行查看内容,我们就可以具体分析代码实现内容,然后在python里面实现同样作用

11、例如上面的内容是11位时间戳数和headers里面的user-agent,有的可以直接调用,有的需要我们写python代码实现

12、如果其中有内容无法确定的,我们还可以直接在js上打断点,重新翻译后就可查看具体内容,如下(这些都可以辅助我们解决加密内容),我们知道所有内容后就可以写代码了

上一篇下一篇

猜你喜欢

热点阅读