爬虫原理与数据抓取之七: URLError 和 HTTPErro

2018-04-18 本文已影响25人奋斗的老王

urllib2 的异常错误处理

在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。
这里主要说的是URLError和HTTPError，以及对它们的错误处理。

URLError

URLError 产生的原因主要有：
- 没有网络连接
- 服务器连接失败
- 找不到指定的服务器
我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名：

# urllib2_urlerror.py

import urllib2

requset = urllib2.Request('http://www.ajkfhafwjqh.com')

try:
    urllib2.urlopen(request, timeout=5)
except urllib2.URLError, err:
    print err

运行结果如下：

<urlopen error [Errno 8] nodename nor servname provided, or not known>
urlopen error，错误代码8，错误原因是没有找到指定的服务器。

HTTPError

HTTPError是URLError的子类，我们发出一个请求时，服务器上都会对应一个response应答对象，其中它包含一个数字"响应状态码"。
如果urlopen或opener.open不能处理的，会产生一个HTTPError，对应相应的状态码，HTTP状态码表示HTTP协议所返回的响应的状态。

注意，urllib2可以为我们处理重定向的页面（也就是3开头的响应码），100-299范围的号码表示成功，所以我们只能看到400-599的错误号码。

# urllib2_httperror.py
import urllib2
requset = urllib2.Request('http://blog.baidu.com/itcast')
try:
    urllib2.urlopen(requset)
except urllib2.HTTPError, err:
    print err.code
    print err

运行结果如下：
```
404
HTTP Error 404: Not Found
```

HTTP Error，错误代号是404，错误原因是Not Found，说明服务器无法找到被请求的页面。
通常产生这种错误的，要么url不对，要么ip被封。

改进版

由于HTTPError的父类是URLError，所以父类的异常应当写到子类异常的后面，所以上述的代码可以这么改写：

# urllib2_botherror.py

import urllib2

requset = urllib2.Request('http://blog.baidu.com/itcast')

try:
    urllib2.urlopen(requset)

except urllib2.HTTPError, err:
    print err.code

except urllib2.URLError, err:
    print err

else:
    print "Good Job"

运行结果如下：
404
这样我们就可以做到，首先捕获子类的异常，如果子类捕获不到，那么可以捕获父类的异常。

HTTP响应状态码参考：

1xx:信息

100 Continue : 服务器仅接收到部分请求，但是一旦服务器并没有拒绝该请求，客户端应该继续发送其余的请求。
101 Switching Protocols : 服务器转换协议：服务器将遵从客户的请求转换到另外一种协议。

2xx:成功

200 OK : 请求成功（其后是对GET和POST请求的应答文档）
201 Created : 请求被创建完成，同时新的资源被创建。
202 Accepted : 供处理的请求已被接受，但是处理未完成。
203 Non-authoritative Information : 文档已经正常地返回，但一些应答头可能不正确，因为使用的是文档的拷贝。
204 No Content : 没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面，而Servlet可以确定用户文档足够新，这个状态代码是很有用的。
205 Reset Content : 没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content : 客户发送了一个带有Range头的GET请求，服务器完成了它。

3xx:重定向

300 Multiple Choices : 多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently : 所请求的页面已经转移至新的url。
302 Moved Temporarily : 所请求的页面已经临时转移至新的url。
303 See Other : 所请求的页面可在别的url下被找到。
304 Not Modified : 未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求（一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档）。服务器告诉客户，原来缓冲的文档还可以继续使用。
305 Use Proxy : 客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused : 此代码被用于前一版本。目前已不再使用，但是代码依然被保留。
307 Temporary Redirect : 被请求的页面已经临时移至新的url。

4xx:客户端错误

400 Bad Request : 服务器未能理解请求。
401 Unauthorized : 被请求的页面需要用户名和密码。
- 401.1 : 登录失败。
- 401.2 : 服务器配置导致登录失败。
- 401.3 : 由于 ACL 对资源的限制而未获得授权。
- 401.4 : 筛选器授权失败。
- 401.5 : ISAPI/CGI 应用程序授权失败。
- 401.7 : 访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required : 此代码尚无法使用。
403 Forbidden : 对被请求页面的访问被禁止。
- 403.1 : 执行访问被禁止。
- 403.2 : 读访问被禁止。
- 403.3 : 写访问被禁止。
- 403.4 : 要求 SSL。
- 403.5 : 要求 SSL 128。
- 403.6 : IP 地址被拒绝。
- 403.7 : 要求客户端证书。
- 403.8 : 站点访问被拒绝。
- 403.9 : 用户数过多。
- 403.10 : 配置无效。
- 403.11 : 密码更改。
- 403.12 : 拒绝访问映射表。
- 403.13 : 客户端证书被吊销。
- 403.14 : 拒绝目录列表。
- 403.15 : 超出客户端访问许可。
- 403.16 : 客户端证书不受信任或无效。
- 403.17 : 客户端证书已过期或尚未生效。
- 403.18 : 在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
- 403.19 : 不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
- 403.20 : Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found : 服务器无法找到被请求的页面。
- 404.0 : 没有找到文件或目录。
- 404.1 : 无法在所请求的端口上访问 Web 站点。
- 404.2 : Web 服务扩展锁定策略阻止本请求。
- 404.3 : MIME 映射策略阻止本请求。
405 Method Not Allowed请求中指定的方法不被允许。
406 Not Acceptable : 服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required : 用户必须首先使用代理服务器进行验证，这样请求才会被处理。
408 Request Timeout : 请求超出了服务器的等待时间。
409 Conflict : 由于冲突，请求无法被完成。
410 Gone : 被请求的页面不可用。
411 Length Required : "Content-Length" 未被定义。如果无此内容，服务器不会接受请求。
412 Precondition Failed : 请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large : 由于所请求的实体的太大，服务器不会接受请求。
414 Request-url Too Long : 由于url太长，服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时，就会发生这种情况。
415 Unsupported Media Type : 由于媒介类型不被支持，服务器不会接受请求。
416 Requested Range Not Satisfiable : 服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed : 执行失败。
423 : 锁定的错误。

5xx:服务器错误

500 Internal Server Error : 请求未完成。服务器遇到不可预知的情况。
- 500.12 : 应用程序正忙于在 Web 服务器上重新启动。
- 500.13 : Web 服务器太忙。
- 500.15 : 不允许直接请求 Global.asa。
- 500.16 : UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
- 500.18 : URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
- 500.100 : 内部 ASP 错误。
501 Not Implemented : 请求未完成。服务器不支持所请求的功能。
502 Bad Gateway : 请求未完成。服务器从上游服务器收到一个无效的响应。
- 502.1 : CGI 应用程序超时。　·
- 502.2 : CGI 应用程序出错。
503 Service Unavailable : 请求未完成。服务器临时过载或当机。
504 Gateway Timeout : 网关超时。
505 HTTP Version Not Supported : 服务器不支持请求中指明的HTTP协议版本

爬虫原理与数据抓取之七: URLError 和 HTTPErro

urllib2 的异常错误处理

URLError

HTTPError

注意，urllib2可以为我们处理重定向的页面（也就是3开头的响应码），100-299范围的号码表示成功，所以我们只能看到400-599的错误号码。

改进版

HTTP响应状态码参考：

1xx:信息

2xx:成功

3xx:重定向

4xx:客户端错误

5xx:服务器错误

猜你喜欢

热点阅读