教你写python爬虫-用python爬美图
2019-11-05 本文已影响0人
python学习与大数据分析
![](https://img.haomeiwen.com/i10503476/63bea87c6664fd37.jpg)
环境:python3.6 + pycharm
“猎物”:http://www.polayoutu.com (仅学习用)
动机1:想要爬一些尺寸比较大(不是尺度)的美图养养眼,仅此而已;
动机2:学习python爬虫,要学以致用
一、分析目标网站:
1.寻找URL:
摄影图片是分期展示的,我们滚动页面,滚动到140期,看到请求的URL如下:
“http://www.polaxiong.com/collections/get_entries_by_collection_id/140?{}”
![](https://img.haomeiwen.com/i10503476/a0c823c743dcd42b.png)
2.大胆猜测:URL地址中"?{}"去掉可不可以?我们做一个尝试,直接输入“http://www.polaxiong.com/collections/get_entries_by_collection_id/140”,得到的是一个json字符串(我个人还是蛮喜欢json字符串的,因为它跟字典互相转换,炒鸡爽!)
![](https://img.haomeiwen.com/i10503476/e40821987d516593.png)
3.看!有情报,data字段对应的value里有0-11编号的数据,展开其中一个,看到文件描述,心里乐开花,这不正是页面上图片的描述吗?而且,“full_res"字段对应的value,就是我们要找到原图URL。
![](https://img.haomeiwen.com/i10503476/93d55f278f2f85ae.png)
![](https://img.haomeiwen.com/i10503476/02bd357ac6348a0d.png)
4.尝试打开full_res的url地址,查看图片大小:2.9M,这肯定是原图啊,哪个网站缩略图能有2.9M的?
![](https://img.haomeiwen.com/i10503476/9b1b4f853d865d08.png)
5.接下来,我们要做的就是把json字符串转成字典,取出full_res的值
![](https://img.haomeiwen.com/i10503476/3f1b24aea69c83f5.png)
二、我们看一下效果:
![](https://img.haomeiwen.com/i10503476/569b89b9b328aed3.png)
2张图片大小共19M,下载的是原图!
![](https://img.haomeiwen.com/i10503476/d24906f7c966fe66.png)
限于篇幅,这里就不贴出源码了,有需要的同学请移步公众号领取。