Scrapy爬女神图（二）—— 原来还能这样玩

2017-04-18 本文已影响480人 Wakingup88688

Srapy第三篇： ImagesPipeline的使用

大家好呀，我来填坑了（半夜写文也是有些醉啊，课太多没有办法唉。。）
（先随便放个图）

Paste_Image.png

上次的项目一发出，立即有盆友留言:

"看来我们开的不是一辆车"
”还是您这趟比较快“

（详情请看：Scrapy爬女神图（一）—— 这是你们要的小姐姐）
。。。。。
我，，，我还只是个纯洁的宝宝好嘛。。。

page1

可以从框中看到图片下载异常的提示（scrapy会自动跳过）

page2

我们点开DropItem的网址，发现图片真的不存在

page3

page4
由上来看，一共抓取成功2042张，失败74张
来看文件发生了什么变化：
点开，可以看到生成的原图（full）和缩略图（thumbs）文件

再点开，thumbs中分big和small，大小缩略图，就是之前设置的字典中的键

点开small，可以看到图片真的是根据URL的SHA1 hash值来自动命名的，
（hash值很少会重复，所以可以实现重复判断）

page5

再随便点开一个，如下，真的是缩略图哦~

page6

四、资料推荐

终于差不多啦，送送福利^_
我收集了一些比较优秀的资料，大家可以做个参考~
官方文档：
Scrapy0.24—— ImagesPipeline部分
优秀博客：
http://www.jianshu.com/p/2528edf4485c
用scrapy自动爬取下载图片

五、总结

最后连带之前的内容一并总结下
这两篇我们使用Scrapy抓取多级网页及图片
1、抓取多级网页：用meta传递数据
2、Scrapy抓取图片：scrapy框架+requests的get方式
3、Scrapy抓取图片： scrapy框架+内置ImagesPipeline方式
两种方式其实下载速度差不多（后面那一种可能快一些）

不过ImagesPipeline可自定义缩略图、过滤小图，还可将打印提示一些出错或不存在而无法下载的图片。但个人感觉这个项目里面，使用第一种，将图片归类（以title名）存入文件，更加清晰也易查看。

你觉得呢？

（不要愣啦，快快点个赞吧⊙▽⊙）

Scrapy爬女神图（二）—— 原来还能这样玩

Srapy第三篇： ImagesPipeline的使用

四、资料推荐

五、总结

你觉得呢？

猜你喜欢

热点阅读