Python爬虫之ip代理池
2019-06-17 本文已影响24人
我爱学python
可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一。
对于封IP的网站。需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了个IP代理池 。学习应该就够了
ip代理池:
1,在各大网站爬去免费代理ip
2,检查ip可用 可用存入数据库1和2
3,在数据库1中拿出少量代理ip存入数据库2(方便维护)
4,定时检查数据库1和数据库2的代理数量,以及是否可用
5,调用端口
1,在各大网站爬去免费代理ip

多写几个这样的方法

2,检查ip可用 可用存入数据库1,和2
3,在数据库1中拿出少量代理ip存入数据库2(方便维护)

我这里是用的www.baidu.com检测的 给主IP的数据库长度是50 (太多了不好维护)
4,定时检查数据库1和数据库2的代理数量,以及是否可用

给他2个线程
Db.py

5,调用端口 使用flask库创建接口

就完成了
运行api


数据库里面的 Iplist为主Ip池 iplist 为备用ip池

用get调用 用一次就删一个

