爬虫记录2-代理服务器

2019-01-23 本文已影响0人二傻吧

1.因为在访问网址时，你的访问请求会被对方进行核查，主要通过User-Agent内容进行认证，看你是人类访问还是机器访问，所以为了更方便的爬取内容，我们还需要对我们提交的访问请求修改header部分内容。

2.因为一般服务器都会对访问请求的ip地址进行记录，查看其登陆的频率，如果频率过高也会被认为是机器访问，从而屏蔽此ip，所以为了解决这个问题我们可以通过代理服务器，里面设置多个ip地址，让其换着访问，就可以解决以下问题。

代理服务器使用的是urllib.request.ProxyHandler：使用方法如下：

iplist = ['112.95.19.94:8088', '117.158.152.100:32386', '110.189.152.86:30763', '49.51.193.128:1080']

proxy_support = urllib.request.ProxyHandler({'http': random.choice(iplist)})

opener = urllib.request.build_opener(proxy_support)

opener.addheaders = [("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")]

urllib.request.install_opener(opener)

之后就可以通过urllib.request.urlopen(url)正常访问你要访问的网址了。

爬虫记录2-代理服务器

猜你喜欢

热点阅读