python 六节课爬虫 1-3

2018-04-22 本文已影响0人任我笑笑

url

https://www.bilibili.com/video/av19689660/?p=1

课程

第一节课，简介，基本多余
第二节课，前半多余，后半，开始讲requests 模块，进入正式代码部分

正确的步骤

安装anaconda- python环境
安装 pycharm- ide工具

requests 模块

response的方法

response.text
- 该方式往往会出现乱码，出现乱码要制定编码格式 response.encoding='utf-8'
response.content.decode()
- 把相应的二进制字节流转化为str类型

发送post请求

不加header的情况下，下面的代码足矣，但是因为没有header容易被服务器判断为爬虫而不响应。

image.png

header的东西，可以用chrome来查看

image.png

普通情况下只加user-agent就可以

使用超时参数

requests.get(url,headers=headers,timeout=3) # 3秒内响应，否则报错

retrying模块需要安装

使用装饰器，出错情况下运行3次

image.png

cookie

先用chrome登录，然后找到相应url，以及对应的cookie，复制到代码中 header

image.png

或者显示的声明 cookie

image.png

利用session

image.png

如何找到正确的form提交url

观察chrome的network的时候
为了防止页面跳转而导致各种请求信息消失，
可以勾选 preserve log

在html的form代码中找提交的action的url

python 六节课爬虫 1-3

url

课程

正确的步骤

requests 模块

response的方法

发送post请求

使用超时参数

retrying模块需要安装

cookie

猜你喜欢

热点阅读

python 六节课 爬虫 1-3

url

课程

正确的步骤

requests 模块

response的方法

发送post请求

使用超时参数

retrying模块 需要安装

cookie

猜你喜欢

热点阅读

python 六节课爬虫 1-3

retrying模块需要安装