爬虫正传-江湖路远-0104-狡兔三窟
2018-05-14 本文已影响0人
大牧莫邪
那是一个繁忙的午后:
🐈:最近忙什么呢,服务器大佬?
🐶:别提了,之前收拾了几个不懂事的小游侠,还没有消停几天,压力又上来了!
🐈:怎么回事?不是捣乱的数据请求都已近被干掉了吗?
🐶:按照之前的规则倒是短时间减轻了压力,但是不知道怎么回事,最近一段时间用户还是原来那些用户,但是请求数量比正常参考值多出太多了!
🐈:( ⊙ o ⊙ )啊!(思考中)..是不是有非法用户一直访问服务器数据,二十四小时不间断的?
🐶:(⊙v⊙)Bingo!我回去查查,只要是每个小时访问量超出正常值的用户,直接给屏蔽掉,不让访问就可以了!
🐒:..数据怎么又请求不到了..
🐩:断网了吧?
🐒:没有断网啊……咦,浏览器都不能访问这个网站了
🐩:你被人屏蔽了吧
🐒:……
🐶:沙滩啊大海,阳光啊蓝天,整个世界清静了..
很多年以后,少侠发现姜果然还是老的辣,吸取经验教训之后,终于成就了一袋大虾,通过抓取壮丁的方式掩藏自己的行踪,这样即使壮丁被祭天了,大虾还是在幕后干着行侠仗义的大事:这里~我们就来看看爬虫程序怎么通过代理IP地址来掩盖自己的信息!
urllib2中的urlopen方式,是通过默认的HTTPHandler(HTTP请求操作对象:开锁人)直接进行操作的,如果要使用代理IP地址的方式,就需要更改使用代理操作对象(ProxyHandler)进行代理绑定的操作,之后通过build_opener构建具体开锁人对象,完成数据的代理请求
# coding:utf-8
from urllib2 import Request, build_opener, ProxyHandler
# 构建请求对象
url = [http://www.sina.com.cn](http://www.sina.com.cn/)
headers = {
‘User-agent’: ‘..’
}
requset = Request(url, headers=headers)
# 构建代理对象
proxy_handler = ProxyHandler({‘https’: ‘代理IP:端口’})
my_opener = build_opener(proxy_handler)
# 使用自定义代理对象访问服务器获取数据
response = my_opener.open(request)
# 打印展示数据
print(response.read())
运行程序,程序会通过代理IP地址进行服务器数据的请求,我们通过代理服务器获取代理接受到的响应数据,此时~大虾自己的IP地址被代理隔离不会再暴露在服务器大佬的视线中了