python爬虫day-1（urllib库）

2019-03-29 本文已影响0人南音木

学习笔记，方便查阅，仅供参考，欢迎指点

基本库的使用

自己学习，直接上手写代码，没有提前看理论，想着遇到瓶颈了，再回头看理论，这样应该学的更快些。

学习爬虫，最开始的操作便是模拟浏览器向服务器发出请求，Python提供了功能齐全的类库来帮助我们完成这些请求。
最基础的HTTP库有 $\color{coral}{urllib}$ ， $\color{coral}{requests}$ ，httplib2，treq等。

主要学习前面两个，后面一个库似乎更强大。

urllib库

urllib库，它是Python内置的HTTP请求库，所以不需要安装。

库（urllib）——模块（request）——方法&函数（urlopen）——参数（data）

个人理解：Python下面有各种不同作用的库，库下面实现功能模块，模块又包含了很多方法或者函数，方法需要传递不同的参数。

urllib包含4个模块：

request：最基本的HTTP请求模块，模拟发送请求。
error：异常处理模块。
parse：一个工具模块，提供了许多URL处理方法，拆分、解析、合并等。
robotparser：主要是用来识别网站的robots.txt文件。然后判断哪些网站可爬，哪些不可爬，这个用的比较少。

1发送请求-request模块：

1.urlopen（）

$\color{coral}{函数原型：}$
$\color{coral}{urllib.request.urlopen(url,data=None, [timeout,]*,}$
$\color{coral}{cafile=None,capath=None,cadefault=False,context=None)}$

爬取网站网页：

import  urllib.request

response =urllib.request.urlopen('http://www.destinystar.cn')
#输出网页源代码
print(response.read().decode('utf-8'))
#利用type（）输出响应的类型
print(type(response))

输出结果：<class 'http.client.HTTPResponse'>

代码二：

import urllib.request
response=urllib.request.urlopen('https://flowingdata.com')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

参数：

data可选参数

import urllib.parse
import urllib.request
data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8')
response=urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

timeout参数
timeout 参数用于设置超时时间，单位为秒，意思就是如果请求超了设置的这个时间，还没有得到响应就会抛出异常如果不指定该参数，就会使用全局默认时间。

import urllib.request
response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.5)
print(response.read())

可以通过设置这个超时时间来控制一个网页如果长时间未响应，就跳过它的抓取。

import socket
import urllib.request
import urllib.error
try:
    response=urllib.request.urlopen('http://httpbin.org/get',timeout=1)
        print(response.status)
except urllib.error.URLError as e:
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')

其他参数：
context 、cafile、capath 参数