豆瓣反爬策略的坑

2016-08-19  本文已影响1436人  spencer404

方案(一)

不停变换user-agent, 但很快就被封了.

方案(二)

使用浏览器访问豆瓣, 将cookies拷贝下来交给爬虫使用, 不过也就大概一分钟左右, 这个cookies就被封掉了, 而且换IP也没法.

方案(三)

利用requests库自带的session, 用一个新的session去访问豆瓣, 这样豆瓣会颁发一个cookies, 带着这个cookies(requests库自动管理cookies)去访问豆瓣, 一段时间后, 这个session会被豆瓣封掉, 这时换一个新的session就行了.
不过, 还是被封了, 猜测是豆瓣检测到这个IP有太多的新用户, 不再为新的用户颁发cookies了

方案(四)

分析出cookies的规律, 自己伪造, 豆瓣居然没检查, 爬完收工.
战果很丰富! (__)

上一篇下一篇

猜你喜欢

热点阅读