爬虫正传-江湖路远-0104-狡兔三窟

2018-05-14 本文已影响0人大牧莫邪

那是一个繁忙的午后：
🐈：最近忙什么呢，服务器大佬？
🐶：别提了，之前收拾了几个不懂事的小游侠，还没有消停几天，压力又上来了！
🐈：怎么回事？不是捣乱的数据请求都已近被干掉了吗？
🐶：按照之前的规则倒是短时间减轻了压力，但是不知道怎么回事，最近一段时间用户还是原来那些用户，但是请求数量比正常参考值多出太多了！
🐈：( ⊙ o ⊙ )啊！(思考中)..是不是有非法用户一直访问服务器数据，二十四小时不间断的？
🐶：(⊙v⊙)Bingo！我回去查查，只要是每个小时访问量超出正常值的用户，直接给屏蔽掉，不让访问就可以了！

🐒：..数据怎么又请求不到了..
🐩：断网了吧？
🐒：没有断网啊……咦，浏览器都不能访问这个网站了
🐩：你被人屏蔽了吧
🐒：……

🐶：沙滩啊大海，阳光啊蓝天，整个世界清静了..

很多年以后，少侠发现姜果然还是老的辣，吸取经验教训之后，终于成就了一袋大虾，通过抓取壮丁的方式掩藏自己的行踪，这样即使壮丁被祭天了，大虾还是在幕后干着行侠仗义的大事：这里~我们就来看看爬虫程序怎么通过代理IP地址来掩盖自己的信息！

urllib2中的urlopen方式，是通过默认的HTTPHandler(HTTP请求操作对象：开锁人)直接进行操作的，如果要使用代理IP地址的方式，就需要更改使用代理操作对象(ProxyHandler)进行代理绑定的操作，之后通过build_opener构建具体开锁人对象，完成数据的代理请求


# coding:utf-8

from urllib2 import Request, build_opener, ProxyHandler

# 构建请求对象

url = [http://www.sina.com.cn](http://www.sina.com.cn/)

headers = {

    ‘User-agent’: ‘..’

}

requset = Request(url, headers=headers)

# 构建代理对象

proxy_handler = ProxyHandler({‘https’: ‘代理IP:端口’})

my_opener = build_opener(proxy_handler)

# 使用自定义代理对象访问服务器获取数据

response = my_opener.open(request)

# 打印展示数据

print(response.read())

运行程序，程序会通过代理IP地址进行服务器数据的请求，我们通过代理服务器获取代理接受到的响应数据，此时~大虾自己的IP地址被代理隔离不会再暴露在服务器大佬的视线中了

爬虫正传-江湖路远-0104-狡兔三窟

猜你喜欢

热点阅读