一般爬虫如何改造为通用爬虫

2019-03-01  本文已影响0人  顶尖少爷

通用爬虫的特征

  1. 其爬取大量(一般来说是无限)的网站而不是特定的一些网站。
  2. 其不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的。相反,其会限制爬取的时间及数量。
  3. 其在逻辑上十分简单(相较于具有很多提取规则的复杂的spider),数据会在另外的阶段进行后处理(post-processed)
  4. 其并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重,每个站点爬取速度很慢但同时爬取很多站点)。

如何将一般爬虫改造为通用爬虫

修改setting文件

#1. 增加全局并发数:
CONCURRENT_REQUESTS = 100
#2.降低log级别
LOG_LEVEL = 'INFO'
#3.禁止cookies
COOKIES_ENABLED = False
#4.禁止重试
RETRY_ENABLED = False
#5.减小下载超时
DOWNLOAD_TIMEOUT = 15
#6.禁止重定向
REDIRECT_ENABLED = False
#7.启用”ajax Crawlabel Pages” 爬取
AJAXCRAWL_ENABLED = True
上一篇下一篇

猜你喜欢

热点阅读