python爬虫day-1(urllib库)
2019-03-29 本文已影响0人
南音木
学习笔记,方便查阅,仅供参考,欢迎指点
基本库的使用
自己学习,直接上手写代码,没有提前看理论,想着遇到瓶颈了,再回头看理论,这样应该学的更快些。
学习爬虫,最开始的操作便是模拟浏览器向服务器发出请求,Python提供了功能齐全的类库来帮助我们完成这些请求。
最基础的HTTP库有 ,,httplib2,treq等。
主要学习前面两个,后面一个库似乎更强大。
urllib库
urllib库,它是Python内置的HTTP请求库,所以不需要安装。
库(urllib)——模块(request)——方法&函数(urlopen)——参数(data)
个人理解:Python下面有各种不同作用的库,库下面实现功能模块,模块又包含了很多方法或者函数,方法需要传递不同的参数。
urllib包含4个模块:
request:最基本的HTTP请求模块,模拟发送请求。
error:异常处理模块。
parse:一个工具模块,提供了许多URL处理方法,拆分、解析、合并等。
robotparser:主要是用来识别网站的robots.txt文件。然后判断哪些网站可爬,哪些不可爬,这个用的比较少。
1发送请求-request模块:
1.urlopen()
- 爬取网站网页:
import urllib.request
response =urllib.request.urlopen('http://www.destinystar.cn')
#输出网页源代码
print(response.read().decode('utf-8'))
#利用type()输出响应的类型
print(type(response))
输出结果:<class 'http.client.HTTPResponse'>
代码二:
import urllib.request
response=urllib.request.urlopen('https://flowingdata.com')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))
参数:
data可选参数
import urllib.parse
import urllib.request
data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8')
response=urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())
timeout参数
timeout 参数用于设置超时时间,单位为秒,意思就是如果请求超 了设置的这个时间,还没有得到响应就会抛出异常如果不指定该参数,就会使用全局默认时间。
import urllib.request
response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.5)
print(response.read())
可以通过设置这个超时时间来控制一个网页如果长时间未响应,就跳过它的抓取。
import socket
import urllib.request
import urllib.error
try:
response=urllib.request.urlopen('http://httpbin.org/get',timeout=1)
print(response.status)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')
其他参数:
context 、cafile、capath 参数