scrapy爬虫

2017-08-30  本文已影响22人  milomallo

一、安装

首先Python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。

其次安装pip,在命令行中执行以下命令:

sudo apt-get install python-pip

然后安装两个安装Scrapy需要的依赖库,在命令行中分别执行以下三条命令:

sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev  #在阿里云上配置的时候发现还要安这个 

最后安装Scrapy,在命令行中执行以下命令:

sudo pip install scrapy

然后我们的最新版Scrapy就安装好了,可以执行下列命令查看版本号:

scrapy version

二、框架介绍

参考:http://blog.csdn.net/wbainngg123/article/details/77696634

scrapy由下面几个部分组成

spiders:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据

items:定义我们需要的结构化数据,使用相当于dict

pipelines:管道模块,处理spider模块分析好的结构化数据,如保存入库等

middlewares:中间件,相当于钩子,可以对爬取前后做预处理,如修改请求header,url过滤等

三、爬虫实践

1、爬取京东商品介绍等详细信息 (存储到Excel中)

2、爬取淘宝天猫商品信息

3、爬取豆瓣书籍信息

这里爬取的结果分别存到mysql或者Excel中;

代码附在GitHub上:

上一篇下一篇

猜你喜欢

热点阅读