爬虫python 爬虫Scrapy Python 爬虫 框架

Scrapy爬女神图(二)—— 原来还能这样玩

2017-04-18  本文已影响480人  Wakingup88688
Srapy第三篇: ImagesPipeline的使用

大家好呀,我来填坑了(半夜写文也是有些醉啊,课太多没有办法唉。。)
(先随便放个图)

Paste_Image.png

上次的项目一发出,立即有盆友留言:

"看来我们开的不是一辆车"
还是您这趟比较快

(详情请看:Scrapy爬女神图(一)—— 这是你们要的小姐姐
。。。。。
我,,,我还只是个纯洁的宝宝好嘛。。。

page1

可以从框中看到图片下载异常的提示(scrapy会自动跳过)

page2

我们点开DropItem的网址,发现图片真的不存在

page3
page4
由上来看,一共抓取成功2042张,失败74张
来看文件发生了什么变化:
点开,可以看到生成的原图(full)和缩略图(thumbs)文件

再点开,thumbs中分big和small,大小缩略图,就是之前设置的字典中的键


点开small,可以看到图片真的是根据URL的SHA1 hash值来自动命名的,
(hash值很少会重复,所以可以实现重复判断) page5

再随便点开一个,如下,真的是缩略图哦~

page6

</br>
</br>

四、资料推荐

终于差不多啦,送送福利_
我收集了一些比较优秀的资料,大家可以做个参考~
官方文档
Scrapy0.24—— ImagesPipeline部分
优秀博客
http://www.jianshu.com/p/2528edf4485c
用scrapy自动爬取下载图片
</br>
</br>

五、总结

最后连带之前的内容一并总结下
这两篇我们使用Scrapy抓取多级网页及图片
1、抓取多级网页:用meta传递数据
2、Scrapy抓取图片:scrapy框架+requests的get方式
3、Scrapy抓取图片: scrapy框架+内置ImagesPipeline方式

两种方式其实下载速度差不多(后面那一种可能快一些)
</br>
不过ImagesPipeline可自定义缩略图、过滤小图,还可将打印提示一些出错或不存在而无法下载的图片。 但个人感觉这个项目里面,使用第一种,将图片归类(以title名)存入文件,更加清晰也易查看。

你觉得呢?

(不要愣啦,快快点个赞吧⊙▽⊙)

上一篇 下一篇

猜你喜欢

热点阅读