自学Python爬虫：重构爬虫UA信息

2023-01-12 本文已影响0人小强聊成长

网络爬虫使用程序代码来访问网站，而非人类亲自点击访问，因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力，禁止网爬虫大量地访问网站，以免给网站服务器带来压力。改变UA信息，让对方服务器认为你不是一个程序，就是反爬策略的第一步。

下面直接上代码：

from urllib import request
# 定义变量：URL 与 headers
url = 'http://httpbin.org/get' #向测试网站发送请求

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
# 1、创建请求对象，包装ua信息
req = request.Request(url=url,headers=headers)
# 2、发送请求，获取响应对象
res = request.urlopen(req)
# 3、提取响应内容
html = res.read().decode('utf-8')
print(html)

执行结果如下：

{
  "args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-63bd2ac1-6438bfe320160274026a7c1a"
  }, 
  "origin": "119.109.99.37", 
  "url": "http://httpbin.org/get"
}

________________END______________

自学Python爬虫：重构爬虫UA信息

猜你喜欢

热点阅读