大数据 爬虫Python AI SqlPython小哥哥

Python进阶记录之requests模块 !

2019-07-02  本文已影响0人  14e61d025165

回顾

在《Python进阶记录之HTMLParser模块》中,我们介绍了Python内置的HTML解析库HTMLParser的基本用法,并配合urllib模块和re模块实现了获取指定新闻内容的功能。今天我们讲一下Python第三方网络请求库——requests模块。

requests模块简介与安装

requests是基于Python内置的urllib模块编写而成的,采用的是Apache2 Licensed开源协议的HTTP库,requests封装了urllib库,使用起来比urllib更加方便,可以帮助我们更方便地进行网络请求。

由于requests模块不是Python内置的资源库,因此,我们需要自己去安装这个第三方库。安装方法很简单,只需使用以下命令即可。

<pre spellcheck="false" style="box-sizing: border-box; margin: 5px 0px; padding: 5px 10px; border: 0px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-variant-numeric: inherit; font-variant-east-asian: inherit; font-weight: 400; font-stretch: inherit; font-size: 16px; line-height: inherit; font-family: inherit; vertical-align: baseline; cursor: text; counter-reset: list-1 0 list-2 0 list-3 0 list-4 0 list-5 0 list-6 0 list-7 0 list-8 0 list-9 0; background-color: rgb(240, 240, 240); border-radius: 3px; white-space: pre-wrap; color: rgb(34, 34, 34); letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">pip install requests
</pre>

当然,如果你安装了Anaconda,那么它已经帮你安装好了requests模块,直接用就可以了。另外,如果你同时安装了Python2和Python3,那么你可能需要根据开发环境选择使用pip还是pip3命令。

requests模块的简单使用

requests模块可以实现urllib模块基本上所有的功能,且使用方法更加简单。

requests模块进行get请求调用get( )方法,传入url、headers等参数即可。

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1562052451626" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

get请求

requests自动检测编码,使用encoding属性可以查看当前编码,我们也可以通过修改encoding属性来设置请求时使用的编码。另外,通过content属性可以获取请求结果的二进制模式,用于文件下载。

get请求也可以带参数,requests模块的get( )方法支持接收字典作为params参数将请求参数传入。

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1562052451632" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

get请求带参数

这里我们借用httpbin这个网站,通过该网站我们可以测试HTTP请求和响应的各种信息,比如 cookie、ip、headers和登录验证等,httpbin支持GET、POST等多种请求方法。

get请求的参数会自动拼接到url后面,请求后得到相应的请求结果。如果使用urllib的get请求,我们想对请求结果进行json序列化,需要借用json模块,调用json.loads( )方法。而requests对于特定类型的响应非常方便,通过json( )方法就可以直接获取json序列化结果。

requests模块进行post请求调用post( )方法,同样地,它也接收url、headers等参数。我们仍然借助httpbin网站进行post请求测试,与get方法传参使用params参数不同,post请求传参我们将待传参数的字典传给data参数。

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1562052451637" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

post请求

post请求参数不会拼接在url后面。此外,requests模块默认使用application/x-www-form-urlencoded格式对post数据进行编码。我们可以从返回结果中看到,请求参数在form中,并且headers头信息中的Content-Type为application/x-www-form-urlencoded。

如果我们要传递json数据,只需将原本传给data的请求参数传给json参数即可。

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1562052451640" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

传递json数据

再次运行代码,可以看到,此时请求参数在data中了,并且headers头信息中的Content-Type为application/json。

如果我们要上传一个文件到服务器,通常需要更复杂的编码格式,但是requests模块帮助我们把这种复杂的编码格式简化成了files参数。

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1562052451645" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

上传文件

使用requests模块的post( )方法,我们只需要将通过open方法打开的文件包装传递给files参数即可。

此外,requests模块对Cookie做了特殊处理。因此,使用requests模块进行网络请求时,我们不必解析Cookie就可以轻松获取到指定的Cookie信息。

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1562052451649" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

Cookie

通过cookies属性,我们可以得到请求结果的Cookie。当我们知道Cookie具体信息时,还可以通过cookies['key']的方式得到指定的Cookie值,在下一次请求时就可以带上Cookie进行请求了。在编写爬虫的过程中,Cookie是我们经常使用的一个属性,我们通常会在请求时带上Cookie,具体我们在爬虫专题时再深入展开。

总结

以上内容介绍了Python第三方网络请求库requests模块的基本概念和简单用法,需要重点掌握使用requests模块进行get/post请求。requests模块是我们开发中主要的网络请求工具,在日后的学习与实际开发中会经常遇到。感谢大家的支持与关注,欢迎一起学习交流~

上一篇下一篇

猜你喜欢

热点阅读