scrapy突破反爬虫措施

2017-11-24 本文已影响0人 zhangcapricorn

user-agent池

构建cookie池

ip代理来解决

禁用cookie，因为cookie会跟踪爬虫的访问过程。

setting.py中设置：COOKIES_ENABLED = False

自动限速：

访问页面间隔随机

ip代理池

Tor代理：洋葱路由器

分布式下载器Crawlera : 收费内容

google cache ：网页快照

scrapy设置下载延时与自动限速：

setting.py :

DOWNLOAD_DELAY = 2

RANDOM_DOWNLOAD_DELAY = true

自动限速扩展：

该扩展会根据scrapy服务器和爬取网站的负载自动限制爬取速度。

上一篇下一篇

猜你喜欢

热点阅读