scrapy爬虫

2017-08-30 本文已影响22人 milomallo

一、安装

首先Python、lxml、OpenSSL这些工具Ubuntu是自带的，不用管它们。

其次安装pip，在命令行中执行以下命令：

sudo apt-get install python-pip

然后安装两个安装Scrapy需要的依赖库，在命令行中分别执行以下三条命令：

sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev  #在阿里云上配置的时候发现还要安这个

最后安装Scrapy，在命令行中执行以下命令：

sudo pip install scrapy

然后我们的最新版Scrapy就安装好了，可以执行下列命令查看版本号：

scrapy version

二、框架介绍

scrapy由下面几个部分组成

spiders：爬虫模块，负责配置需要爬取的数据和爬取规则，以及解析结构化数据

items：定义我们需要的结构化数据，使用相当于dict

pipelines：管道模块，处理spider模块分析好的结构化数据，如保存入库等

middlewares：中间件，相当于钩子，可以对爬取前后做预处理，如修改请求header，url过滤等

三、爬虫实践

1、爬取京东商品介绍等详细信息（存储到Excel中）

2、爬取淘宝天猫商品信息

3、爬取豆瓣书籍信息

这里爬取的结果分别存到mysql或者Excel中；

代码附在GitHub上：