爬虫反扒机制处理——Referer等错误码处理
2019-01-16 本文已影响1人
MA木易YA
image.png
当你傻愣愣的去访问页面时,往往会返回这样的错误信息页面
image.png
这里因为有关键字referer所以大家可能很快就能够判断出问题所在然后针对性做处理,但是更多时候往往会出现一些我们没遇到过的情况,,比如IP黑名单,Token防盗链等等,我们可以去CDN 默认错误码寻找常见的错误码信息,然后找到问题再针对解决, 这里举一些常见的错误对应CDN
HTTP来源地址(referer,或 HTTP referer)是HTTP表头的一个字段,用来表示从哪儿链接到目前的网页,采用的格式是URL。换句话说,借着HTTP来源地址,目前的网页可以检查访客从哪里而来,这也常被用来对付伪造的跨网站请求。
网站里面常常会用到这个属性来对爬虫进行限制,比如之前我们尝试的千图网爬虫案例中就有针对下载时的referer处理
当你傻愣愣的去访问页面时,往往会返回这样的错误信息页面
image.png
这里因为有关键字referer所以大家可能很快就能够判断出问题所在然后针对性做处理,但是更多时候往往会出现一些我们没遇到过的情况,,比如IP黑名单,Token防盗链等等,我们可以去CDN 默认错误码寻找常见的错误码信息,然后找到问题再针对解决, 这里举一些常见的错误对应CDN
序号 | 错误码(code) | 错误描述(msg) | 发生了什么 |
---|---|---|---|
1 | 40310001 | invalid url | URL 被禁止访问 |
2 | 40310002 | region is forbidden | 触发了地区访问限制规则 |
3 | 40310003 | too many requests | 触发了 IP 频率限制规则 |
4 | 40310011 | invalid User-Agent header | 触发了 User-Agent 防盗链规则 |
5 | 40310012 | remote address is forbidden | 触发了 IP 黑白名单规则 |
6 | 40310013 | invalid user token | 触发了 Token 防盗链规则 |
7 | 40310014 | invalid Referer header | 触发了 Referer 防盗链规则 |
8 | 40310015 | referer uri is forbidden | 触发了 Referer URI 防盗链规则 |
比如之前的referer我们发现的错误所在然后直接在对图片的下载过程中对referer进行设置即可(这里直接将当前链接赋给referer)