Requests库的基本使用(二)
2018-10-05 本文已影响0人
Sunny_97
有一些网站我们直接请求会把我们拒绝访问,如下:出现400状态码,表示请求失败.

解决方式: 添加 headers
作用: 是用于伪装成为一个浏览器发送请求
headers={
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/52.0.2743.116 Safari/537.36'
} 这个就是模拟一个headers请求

这样子我们就可以成功的请求到知乎网的数据了
post 其实post的用法是get其实差不多,这里就不做过多的介绍了,这里就举一个例子:
下面的form就是我们传进去的参数

接下来,介绍两个比较常用的变量:
打印headers信息,cookies信息;

会话维持 这个是在爬虫中经常用到的,采用的是Session

还有一种,我们在爬取一一些网站的时候,要用证书验证:

像上面的因为证书的原因而报错的,这样子就不能很好的爬取网站的信息了,这里我们可以采用跳过证书验证:

那么今天就讲到这里了,喜欢的朋友,给小编一个赞哦