如何自建ip代理池抓取网页?
2020-04-21 本文已影响0人
MOON学术论文写作
思路
1、免费、付费代理。
免费代理,这个不用说了,大部分都没法用。
付费代理?试过了,太贵了,而且质量很一般
2、自建ip代理池
为什么不自己创建自己的ip代理池呢?
自建ip代理池
首先,服务器来源。
你需要一台能拨号上网的服务器,这种业务估计是灰色产业,一般卖服务器的大厂是没有的,比如阿里云什么的。
去网上搜索“拨号vps”,有很多的。
算了一下,一台低配的vps,也就是一个月最低76块钱。
假如每隔1分钟拨号一次,1个小时可以产生60个ip,一天能产生1400个ip。
10台这样的vps,1天能产生14000个动态ip。成本一个月1000块钱不到。自己对比一下这个价格,跟网上付费的代理ip价格,就知道这个价格还算挺划算,重要的是可控。自己掌控,自己独享。
算完了这笔账,我们就可以动手了。
安装代理软件
推荐安装 Squid
网上有很多安装的教程,这里不再说明。
写代码拨号
比如用nodejs执行shell命令就行了。
比如 pppoe-start 是拨号
pppoe-stop 断开拨号。
设置一个时间,每隔1分钟自动断开拨号。
将产生的ip,更新到服务器上,比如你服务器的某个接口,供爬虫程序调用。
程序如何写?这里不再描述,很简单。