虫虫

一个小小的爬虫技巧

2019-08-08  本文已影响0人  somenzz

写过爬虫的同学对 requests 库应该非常熟悉了,这个库是如此的好用。

但今天我就遇到了使用浏览器可以正常访问,一旦使用 requests 去 get 此网站,IP 就会被封,然后浏览器也无法访问。需要等待几个小时之后才能访问。

过了几个小时,我又使用浏览器访问了此 url a,打开谷歌浏览器的开发者工具,发现浏览器先请求另了一个 url b 获取了 cookie ,然后又使用此 cookie 去访问目标 url a。

于是尝试将此 cookie 放在 headers 中,传入 requests 的 get 参数中,发现访问成功。

如果想完全自动化,有两种方法:

希望今天的分享能够帮助到你。

上一篇 下一篇

猜你喜欢

热点阅读