十分钟做一个有价值的爬虫

2017-08-19 本文已影响0人不知伯乐

⒈背景

大概就是前几天吧，一个初中同学急匆匆的来找我，要我帮忙，做一张宣传图，当时大概脑热，答应了，结果，答应之后，我在想没有电脑，又没有ps的素材，要我怎样？
接着在网上找到了一个app,叫图痒,这名字够骚，当时就下载了，发现用起来还不错，最后成功帮了同学的忙，没完呢，我发现里面的素材真心好，可惜不能离线，于是就有了爬取ps素材的想法(๑>؂<๑）
上几张素材图

十分钟做一个有价值的爬虫

十分钟做一个有价值的爬虫
漂亮得不要不要ヽ(≧Д≦)ノ的

⒉分析思路

但是，我们平常爬取的都是网页，现在是app，HOW DO,于是我就想到了抓包，不得不说，这家公司的安全性，简直太低了。直接就是get一个网址，返回一个json，json里面包括了素材的类型，图片的地址,好了，数据有了，就是分析json了

3.json的分析

大概是我从来都没学json，这个步骤，累得我快崩溃，还好最后还是细心分析了，做事要认真

{
  code: 0,
  data: [
    /////{
      id: "89",
      name: "复活节",
      is_new: true,
      images: [
        {
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
        },////
         ////{  
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
}///]]}

这是简化的json,但都是如此循环的，data里有多个字典，但这里只给出一个，而字典里又有一个images的列表，列表里又有字典，只要在这个字典里获取big_url的值，就是获取了素材的下载地址，好乱，是不是，我一开始，也是懵比的

3.废话少说，代码

要用的话，文件的地址要改
要用的话，文件的地址要改
要用的话，文件的地址要改

#-*-coding:utf8;-*-
import os,re,requests,json,time
head={'User-Agent':'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/5.0.5 Mobile/8A93 Safari/6531.22.77'}

r=requests.get('http://api.picyoung.com/static/json/assets_lib_v2.json?tm=25048106',headers=head)#获取json

data=json.loads(r.text.encode('utf8'))#将网页加载给json解析

for item in data['data']['category'][0]['child']:#这里的0很重要，因为一共有6个主题，所以当0爬取完时，就填1，以此类推，填到5，当然你也可以通过一个循环自动爬取全部
  filename=item['name'].replace(' ','').encode('utf8') 
   if False==os.path.exists('/sdcard/to/%s'%filename):#判断文件夹存在，不存在，就创建

   os.mkdir("/sdcard/to/%s"%filename)

  a=0

  for items in item['images']:#遍历images列表里的字典
   url=items['big_url']#从字典里取图片的下载地址
   r=requests.get(url,headers=head,timeout=10)#加载图片

   with open('/sdcard/to/%s/%s.png'%(filename,a),'wb') as code:

    print '正在下载[%s]/%s'(item['name'].encode('utf8'),a)
    code.write(r.content)#写入图片
   a+=1
   time.sleep(0.5)#每爬取完一张，就休眠0.5秒，防止被网站发现

写在最后

感谢图痒这个公司，同时推荐大家使用
我的QQ1208662778，随时可问问题
数据大概这么多

十分钟做一个有价值的爬虫

十分钟做一个有价值的爬虫

⒈背景

⒉分析思路

3.json的分析

3.废话少说，代码

写在最后

猜你喜欢

热点阅读