Python爬虫作业

2017/4/21 七日热门数据分析

2017-04-21  本文已影响86人  Carpe

七日热门里写了些什么?

七日热门标签图

因为分词的问题,有很多词没有分好,从标签中大概地可以看出,主要涉及的是生活, 学习方法, 大学生活,还有阅读这一些主题,从这些词可以反映读者的一些偏好,比如说从“坚持”,“希望”等词反映出读者对于对于未来美好生活的向往,这也是心灵鸡汤还有养成类的文章热门的原因之一,从“生活”,“别人”,“朋友”,“他们”等词也可以反映人际交往这一类的主题很欢迎。

七日热门到底有多热门?

看平均数

由于即使是在七日热门里,阅读数和点赞数评论数也是相差比较大的,所以这里取比值处理进行比较
在图中可以看到

七日热门的评判依据是什么?

真得是发表时间在一周内的吗?

阅读量-发表时间

注:数据没有再一次清洗,所以上面的x轴是的精确到分钟,以及可视化的问题,图中无法详细显示。
在图中,最早发表的时间是2015.8.1(简叔的《简友常见问题汇总》)说明七日热门的评判标准与时间先后没有关系。再从发表的时间集中程度来看,主要集中在4.11-4.19,从另一方面解释就是在短期内有大量地阅读。

需要多少阅读量?

根据阅读量进行排序,阅读量最低的是520(《独为神州惜大儒 ——被淹没在历史深处的傅斯年》),发表时间在2017/4/17,是否可以做出一个推断,短期内阅读量达到500,便可以上热门,至于这个时间限度是多少,因为所抓取数据的时间相差较远,不能做出判断。

字越多越好吗?

哈哈,不存在这个问题,在抓取的数据中,字数最少的是226字(《你的名字,一叶一花的姓氏》),再也不用担心凑字数这件事了。

上一篇 下一篇

猜你喜欢

热点阅读