爬虫课程（九）｜豆瓣：Scrapy中items设计及如何把ite

2017-11-07 本文已影响987人小怪聊职场

一、定义Item

Item是保存爬取到的数据的容器，其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样，我们可以通过创建一个scrapy.Item 类，并且定义类型为scrapy.Field 的类属性来定义一个Item。

首先根据需要从book.douban.com/latest?icn=index-latestbook-all获取到的数据对item进行建模。我们需要从book.douban.com中获取书籍的背景图、书籍详情页地址、书籍名称、书籍介绍、书籍页数、书籍价格以及书籍的发布时间。对此，在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件：

豆瓣读书信息的Item

二、把豆瓣读书的信息写进Item中

第一步，我们把豆瓣读书在列表页的信息写入Item，如下图代码：

把列表页面的书籍信息写入Item

我们发现，列表页的数据非常不全，例如我们需要的书籍页数和书籍价格信息就不在列表页，那么我们就必须去书籍详细页去获取这两个数据。如下图代码：

去详细页获取更多信息

在这两个def中，我们需要注意：在第一个def（parse）在yield出来之后有3个参数，第一个是url，这个url即需要进入的详细页的地址，第二个参数meta是需要把值传到下一个def的对象，第三个参数是callback的值，也就是第二个def（parse_detail）的名称。

最后执行，我们查看得出的结果：

执行爬虫打印出的结果

三、把Item的值传到Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

以下是item pipeline的一些典型应用：

1）清理HTML数据

2）验证爬取的数据(检查item包含某些字段)

3）查重(并丢弃)

4）将爬取结果保存到数据库中

我们获取网站的数据，并且把这些数据保存到Item容器，最后需要通过pipelines把数据存放到数据库中去。那么Item的数据应该怎么传到pipelines里面呢？

第一步：把这个Item yield出去，yield出去之后，这个Item就会进入到pipelines里面去。

yield出Item

第二步：在pipelines编写一个接收Item的class，编写一个process_item（名字是固定的）的方法（带有item参数），同时在settings.py把这个class配置上。如下两张图：

编写一个带process_item def的class

把这个class名称在settings.py中的ITEM_PIPELINES配置上

最后，我们在pipelines的process_item方法上写个断点，查看接收到的item的值，在main.py进行debug，进入到process_item方法时，结果如下，说明这个item值已经进入pipelines管道啦。

item进入pipelines管道

那么，接下来要做的就是利用pipelines，把数据保存到mysql中。这个下篇文章在讲。

爬虫课程（九）｜豆瓣：Scrapy中items设计及如何把ite

猜你喜欢

热点阅读