Python之网络请求库Requests

2019-03-27 本文已影响0人橘子的皮

Requests库入门

Requests库的7个主要方法

requests.request()   构造一个请求,支撑以下各方法的基础方法
requests.get()       获取HIN网页的主要方法,对应于HTTP的GET
requests.head()      获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()      向 HTML网页提变PO)ST请求的方法,对应于HTTP的POST
requests.put()       向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()     向HIML网页提交局部修改请求,对应于HTTP的 PATCH
requests.delete()   向HTML页面提交删除请求,对应于HTTP的 DELETE

Response对象属性

r.status_code   http请求的返回状态，200表示连接成功，404表示失败

r.text http     响应的字符串形式，就是URL对应的页面内容

r.encoding      从http header 中猜测的响应内容编码方式

r.apparent_encoding     从内容中分析出的响应内容编码方式（备选编码方式）

r.content http          响应内容的二进制形式

Requests响应异常

requests.ConnectionError    网络连接错误异常，如DNS查询失败。拒绝连接等

requests.HTTPError          HTTP错误异常

requests.URLRequired        URL缺失异常

requests.TooManyRedirects   超过最大重定向次数，产生重定向异常

requests.ConnectTimeout     连接远程服务器超时异常

requests.TimeOut            请求URL超时，产生超时异常

request.raise_for_status()  该函数会进行检测 如果状态码不是200，就会引发HTTPError异常

HTTP 协议对资源的操作
- GET 请求获取 URL 位置的资源
- HEAD 请求获取 URL 位置资源的响应消息报告，即获得该资源的头部信息
- POST 请求向 URL 位置的资源后附加新的数据
- PUT 请求向 URL 位置存储一个资源，覆盖原 URL 位置的资源 PAT C H 请求局部更新 URL 位置的资源，即改变该处资源的部分内容
- DELETE 请求删除 URL 位置存储的资源

网络爬虫的尺寸
- 小规模，数据量小； Requests 库爬取网页玩转网页
- 中规模，数据规模较大 Scrapy库爬取网站爬取系列网站
- 大规模,搜索引擎爬取速度不敏感爬取速度敏感爬取速度关键定制开发爬取全网

上一篇下一篇

猜你喜欢

热点阅读