程序员@IT·互联网

用爬虫获取简书总用户数和总文章数随时间的变化曲线

2017-05-16  本文已影响108人  ztinpn

思路

关键在于如何得到一系列的文章、用户全局编号以及文章发表和用户注册的时间戳,作为时间-数量曲线上的二维点。希望这些点能够随时间较为均匀地分布,这样,几百个采样点足矣。

然而用来访问简书文章和用户页面里是编号的hash值,因此不可能简单通过编号递增的方法产生访问地址来获得时间戳。

但稍加分析可发现,用户的文章列表中有个note-id字段,似乎就是文章本身的全局编号。那么,找一个简书创立之初就开始连续发表文章的用户,例如@简书,那么,遍历文章列表获得note-id和对应发表时间就可搞定文章总数的时间曲线。

对于用户数量,发现搜索用户的功能里ajax请求可返回包含用户全局id的json信息,而用户主页的动态中,第一条为用户加入简书的时间。那么,可搜索常用用户名的单字,例如“小”,“的”之类,可保证较为均匀地获得简书创立之初直到现在的用户信息。

获取方法

根据前述思路,写js脚本,在chrome浏览器中,简书页面之下运行即可,好处是不用写登录逻辑,且满足同源策略方便ajax。细节比较简单,不赘述。

结果

把结果按照时间排序,绘制得到:

简书用户数、文章数的时间曲线

可见目前文章数超过1200万,用户数超过600万。总体而言,曲线平稳上升。对比之下,文章数上升更快,说明大家的创作热情越来越强了。
另外,看到2015年7月附近有些跳变,推测是做了推广吧。

思考题:如何获得简书的日活?

上一篇下一篇

猜你喜欢

热点阅读