程序员

PySpider 使用说明

2018-11-29  本文已影响7人  Lc_fly

因为工作原因,最近一段时间都在做项目的数据建设工作,涉及到使用Pyspider进行数据的爬取及入库,所以此处系统的整理一下;

pyspider简介

一个国人编写的强大的网络爬虫系统并带有强大的WebUI。
采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。 不过目前对代理支持的话,不太好,只能支持单代理,本身不支持多代理,有两种解决方法:

PySpider特性

PySpider组件及架构

PySpider核心组件有以下几个:

Scheduler(调度器):

Fetcher(提取器):

Processor(处理器):

组件之间架构图如下:

组件流转

每个组件相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

存储

Pyspider支持多种存储,默认使用的sqlite,具体支持如下图源码中所列

支持的数据库

默认情况下,运行的时候,运行目录的下会生成一个data文件夹,里面会存储几个db文件:

PySpider使用

安装Pyspider

安装的话,比较简单,只有两步:

首页介绍

首页

操作按钮

项目列表

编辑页面介绍

编辑调试页面 crawl_config配置属性

总结:

因为第一次接触爬虫,对别的爬虫技术也不太了解,不好做对比,就PySpider来说,用久了还是方便的,特别是页面调试,不过刚开始用的话,对Response对象不熟悉,会比较麻烦一点,毕竟没有PyCharm通过断点查看对象属性来的方便;
因为整体来讲,比较简单,这里就不上传示例代码了,看编辑页面介绍截图的代码,就是之前爬保监会网站的代码,可以借鉴一下,比较简单。

上一篇 下一篇

猜你喜欢

热点阅读