大数据 爬虫Python AI Sql

Scrapy 图片下载、自定义图片名称

2019-06-07  本文已影响25人  Linvisf

首先说一下工作环境:win10下python3.7、scrapy1.6

接下来一起看下项目需求:

项目需求

创建图片爬虫项目命令:scrapy startproject demo

下面爬虫项目工程图:

项目工程

在spider文件夹创建爬虫文件:auto_logos_spider.py

name是车标爬虫类的唯一标识,为了后面运行爬虫项目用的:scrapy crawl autologos

start_urls 是表示从里面开始爬取数据

图片代码2中img_url一定要加[],是因为scrapy.pipelines.images.ImagesPipeline需要传入列表值

代码1 代码2

在items.py编写车标item,定义需要爬取信息:

车标item

接下来在settings.py配置图片下载信息

图片下载配置

运行一下项目:scrapy crawl autologos

下面是最原始的图片下载,会自动生成full文件夹,并且图片名称都是SHA1 hash名称

下载成功图片

下面对图片进行重命名:

在pipelines.py中编写如下:

代码

在settings.py中更改图片下载配置:

更改配置

再次运行一下项目:scrapy crawl autologos

图片目录 下载图片
上一篇下一篇

猜你喜欢

热点阅读