“五一”出游你回来的机票还有吗？

2023-04-20 本文已影响0人 SunY7

今年”五一“已经是可以预见的火爆了，特别是关了三年的大学生们成为了穿梭城市的“特种兵”。短视频平台上的都是各种极限24小时打卡旅游地，景区充斥着各种中老年团，各个地区旅游局的局长为了宣传各种卷。
但是，火爆的旅游不仅让跟旅游相关的各行各业蒸蒸日上，也让黄牛们赚到“盆满钵满”。高铁票且不说，机票的抢票难度已经高到天际。很多热门地点早已售罄。这里我们可以通过python爬虫去查看下能否有捡漏的机会。
像航空网这样的数据，网站的反爬都是很严的，常见的爬虫手段分为2类。
一种是通过验证码进行限制：当某一用户访问次数过多后，就自动让请求跳转到一个验证码页面，只有在输入正确的验证码之后才能继续访问网站。
一种是通过IP地址进行限制：当同一IP、同一电脑在一定时间内访问网站的次数，系统自动限制其访问浏览等。这种情况我们就可以通过频繁变更代理IP等方法绕过封禁的规则。比如这里我们可以通过python多线程采集网站,通过随机数控制保持多个页面使用相同代理IP。

! -- encoding:utf-8 --

import requests
import random
import requests.adapters
import threading # 导入threading模块

要访问的目标页面

targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]

代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"
proxyPort = "31111"

代理验证信息

proxyUser = "username"
proxyPass = "password"
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"

设置 http和https访问都是用HTTP代理

proxies = {
"http": proxyMeta,
"https": proxyMeta,
}

设置IP切换头

tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}

class HTTPAdapter(requests.adapters.HTTPAdapter):
def proxy_headers(self, proxy):
headers = super(HTTPAdapter, self).proxy_headers(proxy)
if hasattr(self, 'tunnel'):
headers['Proxy-Tunnel'] = self.tunnel
return headers

定义一个函数，用于访问一个目标网址

def visit_url(url, i, j):
with requests.session() as s: # 使用with语句管理会话
a = HTTPAdapter()
# 设置IP切换头
a.tunnel = tunnel
s.mount('https://', a)
r = s.get(url, proxies=proxies)
print(f"第{i+1}次访问，第{j+1}个网址，结果如下：") # 使用f-string格式化输出
print(r.text)

访问三次网站，使用相同的tunnel标志，均能够保持相同的外网IP

for i in range(3):
# 创建一个空的线程列表
threads = []
for j, url in enumerate(targetUrlList): # 使用enumerate函数遍历列表
# 创建一个线程，传入目标网址，当前次数和索引
t = threading.Thread(target=visit_url, args=(url, i, j))
# 将线程添加到线程列表
threads.append(t)
# 启动线程
t.start()
# 等待所有线程结束
for t in threads:
t.join()