2018-09-19 scrapy-Pipeline(一)

2018-09-19 本文已影响0人认真的史莱冰

当item进入pipeline的时候就要经过一个个管道，入库或者进行其他作用。先介绍scrapy内置的Pipeline图片管道和文件管道

图片管道

首先如果要用图片管道那么就必须启用item，用item对象才能完成对图片的读写

在items文件中的某一个Item类中，我们需要img_urls和images作为成员变量

img_urls装载的是图片链接，

images是不需要在spider中被赋值的，在图片管道文件中，如果这个images对应的img_urls是正确的，那么下载到的图片信息会传递给这个images

在settings文件中，我们要指出他的存储路径，用

IMAGES_STORE这个名字（不能乱改的）

并且可以在IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH中设置图片的最小宽度和长度设定好这些就直接开始爬就完事儿了

IMAGES_EXPIRES可以设置有效的图片时间，这个90天中是不会再一次下载这个图片

IMAGES_THUMBS这个可以设置缩略图