“五一”出游你回来的机票还有吗?
今年”五一“已经是可以预见的火爆了,特别是关了三年的大学生们成为了穿梭城市的“特种兵”。短视频平台上的都是各种极限24小时打卡旅游地,景区充斥着各种中老年团,各个地区旅游局的局长为了宣传各种卷。
但是,火爆的旅游不仅让跟旅游相关的各行各业蒸蒸日上,也让黄牛们赚到“盆满钵满”。高铁票且不说,机票的抢票难度已经高到天际。很多热门地点早已售罄。这里我们可以通过python爬虫去查看下能否有捡漏的机会。
像航空网这样的数据,网站的反爬都是很严的,常见的爬虫手段分为2类。
一种是通过验证码进行限制:当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。
一种是通过IP地址进行限制:当同一IP、同一电脑在一定时间内访问网站的次数,系统自动限制其访问浏览等。这种情况我们就可以通过频繁变更代理IP等方法绕过封禁的规则。比如这里我们可以通过python多线程采集网站,通过随机数控制保持多个页面使用相同代理IP。
! -- encoding:utf-8 --
import requests
import random
import requests.adapters
import threading # 导入threading模块
要访问的目标页面
targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]
代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
设置 http和https访问都是用HTTP代理
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}
class HTTPAdapter(requests.adapters.HTTPAdapter):
def proxy_headers(self, proxy):
headers = super(HTTPAdapter, self).proxy_headers(proxy)
if hasattr(self, 'tunnel'):
headers['Proxy-Tunnel'] = self.tunnel
return headers
定义一个函数,用于访问一个目标网址
def visit_url(url, i, j):
with requests.session() as s: # 使用with语句管理会话
a = HTTPAdapter()
# 设置IP切换头
a.tunnel = tunnel
s.mount('https://', a)
r = s.get(url, proxies=proxies)
print(f"第{i+1}次访问,第{j+1}个网址,结果如下:") # 使用f-string格式化输出
print(r.text)
访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
# 创建一个空的线程列表
threads = []
for j, url in enumerate(targetUrlList): # 使用enumerate函数遍历列表
# 创建一个线程,传入目标网址,当前次数和索引
t = threading.Thread(target=visit_url, args=(url, i, j))
# 将线程添加到线程列表
threads.append(t)
# 启动线程
t.start()
# 等待所有线程结束
for t in threads:
t.join()