python 六节课 爬虫 1-3
2018-04-22 本文已影响0人
任我笑笑
url
https://www.bilibili.com/video/av19689660/?p=1
课程
第一节课 ,简介 ,基本多余
第二节课 ,前半 多余 ,后半 ,开始 讲requests 模块,进入正式代码部分
正确的步骤
- 安装anaconda- python环境
- 安装 pycharm- ide工具
requests 模块
response的方法
- response.text
- 该方式往往会出现乱码,出现乱码要制定编码格式 response.encoding='utf-8'
- response.content.decode()
- 把相应的二进制字节流转化为str类型
发送post请求
不加header的情况下,下面的代码足矣,但是因为没有header容易被服务器判断为爬虫而不响应。
image.pngheader的东西,可以用chrome来查看
image.png
普通情况下只加user-agent就可以
使用超时参数
- requests.get(url,headers=headers,timeout=3) # 3秒内响应,否则报错
retrying模块 需要安装
使用装饰器,出错情况下运行3次
image.png
cookie
-
先用chrome登录,然后找到相应url,以及对应的cookie,复制到代码中 header
image.png
- 或者显示的声明 cookie
- 利用session
如何找到正确的form提交url
观察chrome的network的时候
为了防止页面跳转而导致各种请求信息消失,
可以勾选 preserve log
- 在html的form代码中找提交的action的url