网站反爬策略VS爬虫反反爬策略

2019-07-16 本文已影响0人 hui_jz

1.header 检验，最简单的反爬机制，就是检查 HTTP 请求的 Headers 信息，包括 User-Agent,、 Referer、Cookies 等。
解决办法：模仿浏览器，请求的时候带上Headers 信息，包括 User-Agent,、 Referer、Cookies 等
2.一段时间内的请求次数限制，限制 IP 的请求数量
解决办法：限制IP访问频率，对性能有要求的可以使用代理IP池，具体数量根据业务需求来计算。
3.同一IP或同一用户频发请求后弹出验证码
解决办法：要么使用代理，准备多个用户避免出现验证码，要么就破解验证么或者使用第三方打码平台（较为复杂的验证码可能无解只能想办法避开）
4.数据不直接渲染，前端异步加载数据
解决办法：一般JS都是请求某个链接得到数据，所以需要我们去对应JS代码里面分析具体请求了哪个链接，然后采用同样的方式，用程序模拟请求。
5.通过 js 的加密库生成动态的 token，同时加密库再进行混淆
解决办法：一般加密都在某个JS里面，所以只能分析JS，在我们的程序里面进行加密了。用

网站反爬策略VS爬虫反反爬策略

猜你喜欢

热点阅读