大牧夜话——爬虫篇

爬虫正传-江湖路远-0104-狡兔三窟

2018-05-14  本文已影响0人  大牧莫邪

那是一个繁忙的午后:
🐈:最近忙什么呢,服务器大佬?
🐶:别提了,之前收拾了几个不懂事的小游侠,还没有消停几天,压力又上来了!
🐈:怎么回事?不是捣乱的数据请求都已近被干掉了吗?
🐶:按照之前的规则倒是短时间减轻了压力,但是不知道怎么回事,最近一段时间用户还是原来那些用户,但是请求数量比正常参考值多出太多了!
🐈:( ⊙ o ⊙ )啊!(思考中)..是不是有非法用户一直访问服务器数据,二十四小时不间断的?
🐶:(⊙v⊙)Bingo!我回去查查,只要是每个小时访问量超出正常值的用户,直接给屏蔽掉,不让访问就可以了!

🐒:..数据怎么又请求不到了..
🐩:断网了吧?
🐒:没有断网啊……咦,浏览器都不能访问这个网站了
🐩:你被人屏蔽了吧
🐒:……

🐶:沙滩啊大海,阳光啊蓝天,整个世界清静了..

很多年以后,少侠发现姜果然还是老的辣,吸取经验教训之后,终于成就了一袋大虾,通过抓取壮丁的方式掩藏自己的行踪,这样即使壮丁被祭天了,大虾还是在幕后干着行侠仗义的大事:这里~我们就来看看爬虫程序怎么通过代理IP地址来掩盖自己的信息!

urllib2中的urlopen方式,是通过默认的HTTPHandler(HTTP请求操作对象:开锁人)直接进行操作的,如果要使用代理IP地址的方式,就需要更改使用代理操作对象(ProxyHandler)进行代理绑定的操作,之后通过build_opener构建具体开锁人对象,完成数据的代理请求


# coding:utf-8

from urllib2 import Request, build_opener, ProxyHandler

# 构建请求对象

url = [http://www.sina.com.cn](http://www.sina.com.cn/)

headers = {

    ‘User-agent’: ‘..’

}

requset = Request(url, headers=headers)

# 构建代理对象

proxy_handler = ProxyHandler({‘https’: ‘代理IP:端口’})

my_opener = build_opener(proxy_handler)

# 使用自定义代理对象访问服务器获取数据

response = my_opener.open(request)

# 打印展示数据

print(response.read())


运行程序,程序会通过代理IP地址进行服务器数据的请求,我们通过代理服务器获取代理接受到的响应数据,此时~大虾自己的IP地址被代理隔离不会再暴露在服务器大佬的视线中了

上一篇下一篇

猜你喜欢

热点阅读