解密大数据

爬虫作业01-获取网络数据的原理

2017-06-29  本文已影响110人  pnjoe

课堂作业

  要爬取的数据类别

  对应的数据源网站

  爬取数据的URL

  数据筛选规则(选做)

作业有点难,但还得交。完成比完美更重要,你说呢?

先给自己订个小目标,先做个简单的小项目:找出蘑菇街快抢频道单场活动,单坑产出最高GMV的明星产品。用图表来展示各商品产出GMV情况。

要爬取的数据类别:  商品名称,活动价格,活动数量,抢剩多少件,

     [根据已知的数据,可以计算出  单坑GMV(活动价格*活动数量),

                                                            实际成交的GMV(活动价格*已经成交件数),

                                                            完成度(已给成交的件数/活动数量)]

对应的数据源网站蘑菇街快抢频道

爬取数据的URL:http://qiang.mogujie.com/jsonp/fastBuyListActionLet/1?callback=jQuery17208702880139730742_1498714398727&bizKey=rush_main&token=eXEv6%252Fkfp4T6Y4e1yZSlMlKNt5GJvSMv9fHgfq8Tk181DuUVqJ6o4XdETLI45DOo1df0S%252B7%252B67bNyV6fzJtWzA%253D%253D&_=1498714398873    

# 不同时段去爬,URL最后面的时间戳(就是最后那串13位数字)有点差别。   网站公示的数据也是有时间限制。即 当前时间前后的6个小时内的数据可获得。

数据筛选规则:返回的 JSON数据格式,需要的数据已有在里面有逐一列出。(目前不知道要用什么工具,或代码,去截取自己想要的某个特定数据。)


自己现有的疑问如下,还望 tiger 指点。 

 *  URL要怎么去确认下来,时间戳要怎么生成? 

 *  返回来的JSON数据格式。 要怎么转换,怎么筛选出自己要的特定数据?

 *  最终得到的数据,要怎么去保存下来?

上一篇 下一篇

猜你喜欢

热点阅读