python学习

爬虫记录2-代理服务器

2019-01-23  本文已影响0人  二傻吧

1.因为在访问网址时,你的访问请求会被对方进行核查,主要通过User-Agent内容进行认证,看你是人类访问还是机器访问,所以为了更方便的爬取内容,我们还需要对我们提交的访问请求修改header部分内容。

2.因为一般服务器都会对访问请求的ip地址进行记录,查看其登陆的频率,如果频率过高也会被认为是机器访问,从而屏蔽此ip,所以为了解决这个问题我们可以通过代理服务器,里面设置多个ip地址,让其换着访问,就可以解决以下问题。

代理服务器使用的是urllib.request.ProxyHandler:使用方法如下:

iplist = ['112.95.19.94:8088', '117.158.152.100:32386', '110.189.152.86:30763', '49.51.193.128:1080']

proxy_support = urllib.request.ProxyHandler({'http': random.choice(iplist)})

opener = urllib.request.build_opener(proxy_support)

opener.addheaders = [("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")]

urllib.request.install_opener(opener)

之后就可以通过urllib.request.urlopen(url)正常访问你要访问的网址了。

上一篇下一篇

猜你喜欢

热点阅读