爬虫基本知识

urllib代理服务器设置

2017-08-08  本文已影响10人  听城

ip代理的一个网站,如果代理信息有误或者代理无法使用则会发生被远程主机拒绝访问等错误

#1.首先建立一个名为use_proxy的自定义函数,该函数的主要实现使用代理服务器来爬取url的功能
#2.该函数有两个参数,一个为代理地址,另一个为url地址
#3.使用urllib.request.ProxyHandler()来设置对用的代理服务器信息
#4. 使用urllib.request.install_opener()创建全局opener对象
import urllib.request

def use_proxy(proxy_addr,url):
    proxy = urllib.request.ProxyHandler({'http':proxy_addr})
    opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data = urllib.request.urlopen(url).read().decode('utf-8')
    return data

proxy_addr = '60.178.1.122:8081'
data = use_proxy(proxy_addr,'http://www.baidu.com')
print(len(data))
上一篇下一篇

猜你喜欢

热点阅读