scrapy抓取百度图片-写给自己看爬虫系列1

2017-10-14 本文已影响0人 wfishj

前言

需求：用scrapy抓取图片
思路：scrapy抓取图片的逻辑是，用爬虫抓取图片url输出到pipeline中，然后由pipeline实施下载保存。关于pipeline的编写，可以自定义一个pipeline或者继承scrapy的imagespipeline从而实现抓取图片，本文以百度图片为例子写一个下载图片的爬虫。

百度图片爬虫-item说明

import scrapy
from scrapy import Field,Item

class PicItem(scrapy.Item):
    search_word = Field()  #搜索的关键词
    pic_name  = Field()  #图片名字
    pic_url = Field()       #图片url

百度图片爬虫-spider说明

import scrapy,json
from scrapy.http import Request
from scrapy.http import FormRequest
from pic.items import PicItem

class PicspiderSpider(scrapy.Spider):
    
    name = "picspider"
    
    allowed_domains = ["http://image.baidu.com/"]
    
    start_urls = ["http://image.baidu.com"]

    def parse(self, response):

        search_word   = '美女'    #查找词
        
        baidu_pic_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={0}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=60&rn=30&gsm=3c&1507915209449=".format(search_word)  #百度图片url
        
        yield Request(baidu_pic_url,meta={"search_word":search_word},callback=self.get_pic,dont_filter=True)
    
    def get_pic(self,response):
        
        item = PicItem()
 
        response_json = response.text    #返回的数据是json格式
 
        response_dict = json.loads(response_json)  #转化为字典
 
        response_dict_data = response_dict['data']  #图片的有效数据在data参数中
        
        for pic in response_dict_data:

            if pic:
                item['search_word']    = response.meta['search_word']  #搜索关键词赋值
                item['pic_url']        = pic['middleURL']  #百度图片搜索结果url            
                item['name']           = pic['fromPageTitleEnc']  #百度图片搜索结果对应的title            
                yield item

自定义pipeline写法

pipeline写法

对爬虫输出的url地址进行请求并且用with open方式存储图片，存储路径为在当前项目中的对应搜索词目录下，图片文件名以百度图片上的图片标题命名。最后在setings中设置好pipeline即可。

import requests,os, sys
from pic import settings       #从settings中导入设定的参数
from scrapy.exceptions import DropItem
from scrapy.http import Request

reload(sys)
sys.setdefaultencoding('utf-8')

 class PicPipeline(object):

     def process_item(self, item, spider):
        
         dir_path = item["search_word"]  

         if not os.path.exists(dir_path):    #检查搜索词是否已经有对应的文件夹，若没则创建一个
            
             os.makedirs(dir_path)

         pic_name = item['name']

         pic_url  = item['pic_url']

         pic_path = dir_path+'/'+pic_name+'.jpg'   #最终路径为搜索词+图片标题

         pic  = requests.get(pic_url,headers=settings.HEADER)  #对图片url发出请求

         with open(pic_path,'wb') as file:   #使用wb方式保存图片

             file.write(pic.content)

继承imagespipeline类写法

imagespipeline工作流程

1.爬取一个Item，将图片的URLs放入image_urls字段
2.从Spider返回的Item，传递到Item Pipeline
3.当Item传递到ImagePipeline，将调用Scrapy 调度器和下载器完成image_urls中的url的调度和下载。ImagePipeline会自动高优先级抓取这些url，于此同时，item会被锁定直到图片抓取完毕才被解锁。
4.图片下载成功结束后，图片下载路径、url和校验和等信息会被填充到images字段中。

setting中的常用属性

ITEM_PIPELINES = ['pic.pipelines. PicPipeline']
IMAGES_STORE = '\home\xiaoming\web_robot\project'  #保存路径
IMAGES_EXPIRES = 90   #过期天数
IMAGES_MIN_HEIGHT = 0  #图片最小的高度，小于该值会被过滤
IMAGES_MIN_WIDTH   =0   #图片最小的宽度，小于该值会被过滤

imagespipeline写法

import requests,os
from pic import settings

import sys  
from scrapy.contrib.pipeline.images import ImagesPipeline  #导入images中间件模块
from scrapy.http import Request
reload(sys)
sys.setdefaultencoding('utf-8')


class PicPipeline(ImagesPipeline): #继承imagespipeline
    
    def get_media_requests(self,item,info):
        
        url = item['pic_url']

        yield Request(url)

    def item_completed(self,results,item,info):
        # result是一个二元组列表，第一个参数为下载是否成功，第二个参数是详细信息。url，path等数据
        image_path = [ result['path'] for exist,result in results if ok ]

参考文章
scrapy 下载图片 ImagesPipeline
Python：使用Scrapy框架的ImagesPipeline下载图片如何保持原图片名称呢？