python爬虫

python爬虫--day02

2019-01-08  本文已影响0人  陈small末

Handler处理器 和 自定义Opener

opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。

但是基本的urlopen()方法不支持代理IP、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
1、使用相关的Handler处理器来创建特定功能的处理器对象;
2、然后通过urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;
3、使用自定义的opener对象,调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_opener()将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)

简单的自定义opener()

import urllib
from urllib import request

# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
handler = urllib.request.HTTPHandler()  # http

# 构建一个HTTPHandler 处理器对象,支持处理HTTPS请求
# handlers = urllib.request.HTTPSHandler()  # 处理https的处理器

# 调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(handler)

# 构建 Request请求
req = urllib.request.Request("http://www.baidu.com", headers=headers)

# 调用自定义opener对象的open()方法,发送request请求
response = opener.open(req)

# 获取服务器响应内容
print(response.read())

Cookie

Cookie 是指某些网站服务器为了辨别用户身份和进行会话跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。

Cookie原理
HTTP是无状态的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:
Cookie名字(Name)
Cookie的值(Value)
Cookie的过期时间(Expires/Max-Age)
Cookie作用路径(Path)
Cookie所在域名(Domain),
使用Cookie进行安全连接(Secure)。

前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大小限制是有差异的)。

Cookie由变量名和值组成,根据 Netscape公司的规定,Cookie格式如下:
Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登录手续。

cookielib库 和 HTTPCookieProcessor处理器
在Python处理Cookie,一般是通过cookielib模块和 urllib2模块的HTTPCookieProcessor处理器类一起使用。

cookielib模块:主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器:主要作用是处理这些cookie对象,并构建handler对象。

cookielib 库
该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。

FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件,即只有在需要时才读取文件或在文件中存储数据。

MozillaCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。

LWPCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。

其实大多数情况下,我们只用CookieJar(),如果需要和本地文件交互,就用 MozillaCookjar() 或 LWPCookieJar()

Cookie案例:

1.获取Cookie
import urllib.request
from http import cookiejar  # python3
# import cookiejar  # python2

# 创建一个对象存储cookie
cookies = cookiejar.LWPCookieJar()
# cookie处理器, 提取cookie
cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
# 创建打开器, 处理cookie
opener = urllib.request.build_opener(cookie_handler)

# 使用opener打开url
response = opener.open("http://www.baidu.com/")
# 得到cookies
print(cookies)

  1. 下载cookie
import urllib.request
from http import cookiejar

filename = "baiducookie.txt"  # 用于保存cookie
# 管理cookie的对象
cookies = cookiejar.LWPCookieJar(filename=filename)
# 创建cookie处理器
cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
# 创建打开器
opener = urllib.request.build_opener(cookie_handler)

# 添加UA,并打开百度,下载cookie
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

req = urllib.request.Request("http://www.baidu.com", headers=headers)

# 打开
response = opener.open(req)

# 保存, 忽略错误
cookies.save(ignore_discard=True, ignore_expires=True)

  1. 使用下载的cookie
import urllib.request
from http import cookiejar

filename = "baiducookie.txt"
cookies = cookiejar.LWPCookieJar()

# 使用cookie
cookies.load(filename)

cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
opener = urllib.request.build_opener(cookie_handler)

# 添加UA,并打开百度
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

req = urllib.request.Request("http://www.baidu.com", headers=headers)
response = opener.open(req)

示例: cookie登录qq空间
1,用自己的账号登录qq空间,将登录成功后的cookie拷贝出来
2,将拷贝出来的cookie保存在HTTP头部信息headers中
3,使用headers发送请求
QQ空间: https://user.qzone.qq.com/904552498
练习: 登录人人网
# 人人网登录接口: 
url = "http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018921035604"
# 参数:
data = {
    "email": "18566218481",
    "icode": "",
    "origURL": "http://www.renren.com/home",
    "domain": "renren.com",
    "key_id": "1",
    "captcha_type": "web_login",
    "password": "1260ec8f79d73201e2e7aaca932e88465dffe9f59bd7104a9d7c1bac981dad59",
    "rkey": "44fd96c219c593f3c9612360c80310a3",
    "f": "http%3A%2F%2Fwww.renren.com%2F548819077%2Fprofile",
}

1, 保存登录成功后的cookie
2, 使用保存的cookie进行登录, 登录后获取个人信息
    url = "http://www.renren.com/548819077/profile"

HTTP代理神器Fiddler / Charles青花瓷

Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。

请求 (Request) 部分详解

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header,显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等。
Textview —— 显示 POST 请求的 body 部分为文本。
WebForms —— 显示请求的 GET 参数 和 POST body 内容。
HexView —— 用十六进制数据显示请求。
Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息.
Raw —— 将整个请求显示为纯文本。
JSON - 显示JSON格式文件。
XML —— 如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。

响应 (Response) 部分详解

Transformer —— 显示响应的编码信息。
Headers —— 用分级视图显示响应的 header。
TextView —— 使用文本显示相应的 body。
ImageVies —— 如果请求是图片资源,显示响应的图片。
HexView —— 用十六进制数据显示响应。
WebView —— 响应在 Web 浏览器中的预览效果。
Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息。
Caching —— 显示此请求的缓存信息。
Privacy —— 显示此请求的私密 (P3P) 信息。
Raw —— 将整个响应显示为纯文本。
JSON - 显示JSON格式文件。
XML —— 如果响应的 body 是 XML 格式,就是用分级的 XML 树来显示它 。

ProxyHandler处理器(代理设置)

使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。

所以我们可以设置一些代理服务器,每隔一段时间换一个代理IP,就算IP被禁止,依然可以换个IP继续爬取。

免费的开放代理获取基本没有成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。

免费短期代理网站举例:(免费代理不稳定,可用率低)
    西刺免费代理IP
    快代理免费代理
    Proxy360代理
    全网代理IP

收费代理:
    芝麻代理,蘑菇代理,快代理等..

import urllib.request
import random

# 假设此时有一已经格式化好的ip代理地址proxies
# 可访问西刺代理获取免费代理ip:http://www.xicidaili.com/

# ip代理
iplist = [
    "http://183.159.84.198:18118",
    "http://183.159.92.206:18118",
    "http://119.179.209.43:61234",
    "http://183.159.82.181:18118"
]

# ua
UserAngentList=[
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1",
    "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36"
]

url = 'https://blog.csdn.net'

for i in range(3):
    headers = { "User-Agent": random.choice(UserAngentList)}
    proxy = {"http": random.choice(iplist)}
    
    try:
        proxy_handler = urllib.request.ProxyHandler(proxy)
        opener = urllib.request.build_opener(proxy_handler)
        req = urllib.request.Request(url, headers=headers)
        response = opener.open(req)  # 使用代理
        print(response.code)

    except:
        print('失败')
    else:
        print('成功')

使用西刺代理客户端:
安装ccproxy代理
设置禁止外部用户访问: 设置 -> 高级 -> 网络 -> 禁止局域网外用户,取消勾选

import urllib.request
import random

# 使用西刺代理
# 无密码
proxy = {"http": "http://172.20.10.3:808"}

# 有密码(需要在 西刺代理软件中添加账号和密码 )
proxy = {"http": "http://user1:123456@172.20.10.3:808"}

HTTP响应状态码参考

1xx:信息

100 Continue
    服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
101 Switching Protocols
    服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。


2xx:成功

200 OK
    请求成功(其后是对GET和POST请求的应答文档)
201 Created
    请求被创建完成,同时新的资源被创建。
202 Accepted
    供处理的请求已被接受,但是处理未完成。
203 Non-authoritative Information
    文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
204 No Content
    没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
205 Reset Content
    没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content
    客户发送了一个带有Range头的GET请求,服务器完成了它。


3xx:重定向

300 Multiple Choices
    多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently
    所请求的页面已经转移至新的url。
302 Moved Temporarily
    所请求的页面已经临时转移至新的url。
303 See Other
    所请求的页面可在别的url下被找到。
304 Not Modified
    未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy
    客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused
    此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
307 Temporary Redirect
    被请求的页面已经临时移至新的url。


4xx:客户端错误

400 Bad Request
    服务器未能理解请求。
401 Unauthorized
    被请求的页面需要用户名和密码。
401.1
    登录失败。
401.2
    服务器配置导致登录失败。
401.3
    由于 ACL 对资源的限制而未获得授权。
401.4
    筛选器授权失败。
401.5
    ISAPI/CGI 应用程序授权失败。
401.7
    访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required
    此代码尚无法使用。
403 Forbidden
    对被请求页面的访问被禁止。
403.1
    执行访问被禁止。
403.2
    读访问被禁止。
403.3
    写访问被禁止。
403.4
    要求 SSL。
403.5
    要求 SSL 128。
403.6
    IP 地址被拒绝。
403.7
    要求客户端证书。
403.8
    站点访问被拒绝。
403.9
    用户数过多。
403.10
    配置无效。
403.11
    密码更改。
403.12
    拒绝访问映射表。
403.13
    客户端证书被吊销。
403.14
    拒绝目录列表。
403.15
    超出客户端访问许可。
403.16
    客户端证书不受信任或无效。
403.17
    客户端证书已过期或尚未生效。
403.18
    在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
    不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
    Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found
    服务器无法找到被请求的页面。
404.0
    没有找到文件或目录。
404.1
    无法在所请求的端口上访问 Web 站点。
404.2
    Web 服务扩展锁定策略阻止本请求。
404.3
    MIME 映射策略阻止本请求。
405 Method Not Allowed
    请求中指定的方法不被允许。
406 Not Acceptable
    服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required
    用户必须首先使用代理服务器进行验证,这样请求才会被处理。
408 Request Timeout
    请求超出了服务器的等待时间。
409 Conflict
    由于冲突,请求无法被完成。
410 Gone
    被请求的页面不可用。
411 Length Required
    "Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
412 Precondition Failed
    请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large
    由于所请求的实体的太大,服务器不会接受请求。
414 Request-url Too Long
    由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
415 Unsupported Media Type
    由于媒介类型不被支持,服务器不会接受请求。
416 Requested Range Not Satisfiable
    服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed
    执行失败。
423
    锁定的错误。


5xx:服务器错误

500 Internal Server Error
    请求未完成。服务器遇到不可预知的情况。
500.12
    应用程序正忙于在 Web 服务器上重新启动。
500.13
    Web 服务器太忙。
500.15
    不允许直接请求 Global.asa。
500.16
    UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
    URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
    内部 ASP 错误。
501 Not Implemented
    请求未完成。服务器不支持所请求的功能。
502 Bad Gateway
    请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
    CGI 应用程序超时。 ·
502.2
    CGI 应用程序出错。
503 Service Unavailable
    请求未完成。服务器临时过载或当机。
504 Gateway Timeout
    网关超时。
505 HTTP Version Not Supported
    服务器不支持请求中指明的HTTP协议版本

Requests: 让 HTTP 服务人类

虽然Python的标准库中 urllib.request 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。

requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:

requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。

requests 的底层实现其实就是 urllib3
requests 的文档非常完备,中文文档也相当不错
Requests 能完全满足当前网络的需求,支持Python 2.6以上。

开源地址:https://github.com/kennethreitz/requests
中文文档 API:http://docs.python-requests.org/zh_CN/latest/index.html

安装方式

利用 pip 安装 或者利用 easy_install 都可以完成安装:
pip install requests

或 easy_install requests

Requests使用

GET请求和POST请求

最基本的GET请求

最基本的GET请求可以直接用get方法
response = requests.get("http://www.baidu.com/")

也可以这么写
# response = requests.request("get", "http://www.baidu.com/")

添加 headers 和 查询参数:
    如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递,可以利用params参数。
示例:百度搜索
import requests
kw = {'wd':'长城'}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}

# params 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
response = requests.get("http://www.baidu.com/s?", params = kw, headers = headers)

# 查看响应内容,response.text 返回的是Unicode格式的数据
print(response.text)

# 查看响应内容,response.content返回的字节流数据
print(respones.content)

# 查看完整url地址
print(response.url)

# 查看响应头部字符编码
print(response.encoding)

# 查看响应码
print(response.status_code)

使用response.text 时,Requests 会基于 HTTP 响应的文本编码自动解码响应内容,大多数 Unicode 字符集都能被无缝地解码。
使用response.content 时,返回的是服务器响应数据的原始二进制字节流,可以用来保存图片等二进制文件。

基本POST请求(data参数)

1. 最基本的GET请求可以直接用post方法
   response = requests.post("http://www.baidu.com/", data = data)
2. 传入data数据
   对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用data这个参数。
示例:有道翻译
import requests
import json

def youdaoAPI(kw):
    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
    response = requests.post(url, data=kw, headers=header)
    res = response.content
    # tgt = json.loads(res)  # json解析
    tgt = res.json() # 自带json解析
    print(tgt["translateResult"])

if __name__ == '__main__':

    kw = input("请输入你想翻译的内容:")
    timet = int(time.time() * 1000)
    data = {
        "i": kw,
        "from": "AUTO",
        "to": "AUTO",
        "smartresult": "dict",
        "client": "fanyideskweb",
        "salt": timet,
        "sign": "f66461b42fe9edb6d88230788fb33cfb",
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "action ": "FY_BY_REALTIME",
        "typoResult ": "false",
    }
    youdaoAPI(data)
代理(proxies参数)

如果需要使用代理,你可以通过为任意请求方法提供proxies参数来配置单个请求:

import requests

# 根据协议类型,选择不同的代理
proxies = {
  "http": "http://12.34.56.79:9527",
  "https": "http://12.34.56.79:9527",
}
# 带密码代理
# proxies = {"https": "http://User1:123456@10.3.132.6:808"}

response = requests.get("http://www.baidu.com", proxies = proxies)
print(response.text)

web客户端验证

如果是Web客户端验证,需要添加 auth = (账户名, 密码)

import requests

auth=('test', '123456')
response = requests.get('https://api.github.com/user', auth = auth)
print(response.text)

Cookies 和 Session

Cookies

如果一个响应中包含了cookie,那么我们可以利用 cookies参数拿到:

import requests

response = requests.get("http://www.baidu.com/")

# 返回CookieJar对象:
cookiejar = response.cookies

# 将CookieJar转为字典:
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiejar)  # <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
print(cookiedict)  # {'BDORZ': '27315'}

Session

在 requests 里,session对象是一个非常常用的对象,这个对象代表一次用户会话:从客户端浏览器连接服务器开始,到客户端浏览器与服务器断开。

会话能让我们在跨请求时候保持某些参数,比如在同一个 Session 实例发出的所有请求之间保持 cookie 。
示例:实现笔趣阁登录
import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

session = requests.session()  # 保存cookie

# 笔趣阁登录
url = "https://www.biquge5200.cc/u/login.htm"
data = {
    # 用户名: niejeff, 密码: 123456
    "name": "niejeff",
    "password": "E10ADC3949BA59ABBE56E057F20F883E",
    "autoLogin": "1",
    "autologin": "1"
}

# 登录
response = session.post(url, data=data, headers=headers)
print(response.text)

处理HTTPS请求 SSL证书验证
Requests也可以为HTTPS请求验证SSL证书:

import requests

# 要想检查某个主机的SSL证书,你可以使用 verify 参数(也可以不写)
response = requests.get("https://www.baidu.com/", verify=True)

# 忽略验证, 可以省略不写或设置为verify=false
response = requests.get("https://www.baidu.com/")

print(response.text)

如果SSL证书验证不通过,或者不信任服务器的安全证书,则会报出SSLError,据说 12306 证书是自己做的:
来测试一下:

import requests
response = requests.get("https://www.12306.cn/mormhweb/")
print(response.text)

果然:
SSLError: ("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我们想跳过 12306 的证书验证,把 verify 设置为 False 就可以正常请求了。
import requests
response = requests.get("https://www.12306.cn/mormhweb/",verify=False)
print response.text

上一篇下一篇

猜你喜欢

热点阅读