扇贝简易爬虫

2017-03-04 本文已影响284人 cijianzy

前段时间因为编译时间过长的问题很是苦恼，玩微信刷微博吧又怕被老板看到而且影响工作，所以准备自己写个爬虫抓取扇贝在背的单词再加桌面提醒好好利用编译这段时间。

这是最终的形态：

屏幕快照 2017-03-04 下午9.53.40.png

提醒这里用的是 Growl（收费）的命令行版本 GrowlNotify.

其实写这个爬虫并不难，主要分为以下两个小步骤：

Cookie 保存

那么登陆后我们需要将 Cookie 保存起来以便后续访问呢。
这里在访问前使用如下方法来保存：

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookielib.CookieJar()))
urllib2.install_opener(opener)

这一步取决于你想获取的数据，可以用上面找登陆接口方法模拟访问一遍找到数据接口即可。我这里找的是在学的接口。接口地址如下：

https://www.shanbay.com/api/v1/bdc/library/familiar/?page={页数}&_={用户id}

可以看到，我这里枚举页数即可拿到所有在学的单词了，返回的是 JSON 字符串也比较方便解析。返回示例