爬虫作业01-获取网络数据的原理

2017-06-29 本文已影响110人 pnjoe

课堂作业

要爬取的数据类别

对应的数据源网站

爬取数据的URL

数据筛选规则(选做)

作业有点难，但还得交。完成比完美更重要，你说呢？

先给自己订个小目标，先做个简单的小项目：找出蘑菇街快抢频道单场活动，单坑产出最高GMV的明星产品。用图表来展示各商品产出GMV情况。

要爬取的数据类别：商品名称，活动价格，活动数量，抢剩多少件，

[根据已知的数据，可以计算出单坑GMV（活动价格*活动数量），

实际成交的GMV（活动价格*已经成交件数），

完成度（已给成交的件数/活动数量）]

对应的数据源网站：蘑菇街快抢频道

爬取数据的URL：http://qiang.mogujie.com/jsonp/fastBuyListActionLet/1?callback=jQuery17208702880139730742_1498714398727&bizKey=rush_main&token=eXEv6%252Fkfp4T6Y4e1yZSlMlKNt5GJvSMv9fHgfq8Tk181DuUVqJ6o4XdETLI45DOo1df0S%252B7%252B67bNyV6fzJtWzA%253D%253D&_=1498714398873

# 不同时段去爬，URL最后面的时间戳（就是最后那串13位数字）有点差别。网站公示的数据也是有时间限制。即当前时间前后的6个小时内的数据可获得。

数据筛选规则：返回的 JSON数据格式，需要的数据已有在里面有逐一列出。（目前不知道要用什么工具，或代码，去截取自己想要的某个特定数据。）

自己现有的疑问如下，还望 tiger 指点。

* URL要怎么去确认下来，时间戳要怎么生成？

* 返回来的JSON数据格式。要怎么转换，怎么筛选出自己要的特定数据？

* 最终得到的数据，要怎么去保存下来？

爬虫作业01-获取网络数据的原理

猜你喜欢

热点阅读