简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化
一、前言
最近写得两篇关于简书的数据可视化文章:《简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化》反响都还不错,因而将继续针对简书进行数据分析和可视化。鉴于此前爬取手机app效率较低,本次重新回归网页数据的爬取。
爬取的对象是:今日看点专题下的“热门”文章数据。一篇文章被编辑收入“今日看点”,即意味着作品将立刻登上首页,得到很好曝光,为更多用户所阅读和喜欢。而本专题“热门”一栏里,收录着简书上至今为止最炙手可热、获赞数最多的文章,针对这部分数据进行研究和分析,可以得知哪类文章最受简书用户喜欢,哪些作者创作了“高质量”的作品等信息。
二、数据获取
上图可知,目前今日看点收录了148618篇文章, 共有30194人关注。原本想获取所有的文章,但发现爬取到1900+篇时,就再也无法得到更多数据,可能简书方面限制和保护了数据。
但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章应该都已经获取到了(后来发现其实并没有,仅是部分,脸疼),基于此后续研究可以继续展开。
三、数据可视化
1、年度月份分布情况
首先,我们来看看,截止目前,这些简书上最热门的文章都发布在何年何月?作为一名来到简书一个多月的小透明,一直不知道简书是何时“横空出世”的,@简叔、@简宝玉可否解答下。
由下图可知,最早的热门文章出现于2014年5月,是@CNFeat创作的《如何搭建一个独立博客——简明Github Pages与Hexo教程》一文。(间接知道了简书起码是在三年前就已经存在了)。之后逐年递增,猜测可能是新增用户基数越来越多,平台越来越为人所知,而且作品越来越好?所以热门文章出现的越来越多。从2016年7月起,出现较大涨幅,并持续到2017年3月,每月热门文章均在110篇以上。在今年的4月份起,持续四个月相对回落了许多。这部分不知道原因何在,难道是太热了,大家创作欲望低迷?
2、24小时分布情况
接着看看发布时间情况,11点钟文章最多,觉得蛮奇怪的,作为一只喜欢在晚上发布文章的小透明,原本觉得晚上才是创作的大好时光啊,11点钟已经属于饭点,难道是上午潜心创作,一天之计在于晨,将当天的写作任务早早的完成,一身轻松?再是24小时都有人发布文章并成为热点,可见鸟儿大了,什么林子都有啊。逃......
3、2017年热门文章
看了那么多历史的数据,那么到底今年有哪些热门文章?到底作为一名普通的作者,该如何写出广受好评的文章呢?
筛选下本年度按获赞数降序的文章,如图,简单浏览下标题,发现非常多设问的句式,想诱导人点击阅读,哪能不用“问号”呢!很多作者的经验分享,或者称作“教做人”的文章?而偏技术性的文章几乎没有,当然原因可能很多,个人也有个人的看法。不过对我来说,倒是可以努力写写数据分析和可视化的文章杀进去,占得一席之地。横空出世,石破天惊,一鸣惊人,@Deserts_X,决定就是你了!咱们年末热门文章见!
4、阅读数、喜欢数与评论数
一篇文章的热门程度,直观地体现在喜欢数和评论数里,当然前提是有被大量阅读。如图可知,有一篇文章阅读数远远高于所有的文章,那就是@简叔的《简友常见问题汇总》,作为简书新手向的使用手册,有此数据,也属正常,虽然不知简叔有多少用户,但86w+的阅读量估计是前无古人后无来者了。
再将目光移动到这篇官方文章之外,首先就能看到第二梯度,20w+阅读量的文章也有近十篇,也是非常难以企及的战绩,虽然其中好几篇的获赞数稍显“平庸”,(手动滑稽)。
换个角度,再看一遍。局部放大,看不到那些讨人厌的神级数据后,觉得神清气爽多了,努力努力应该还是有机会跻身其中的。
5、文章作者
有留心上文CSV截图的,可以对这些文章都是谁写的有了初步的了解。对所有作者进行统计,文章数量靠前的每人贡献的情况如下,也是牛逼坏了。
第一名属于简书一哥@彭小六,共收录了106篇文章。看来分析简书数据永远都避不开的一哥。
并列第二名的是@怀左同学和@韩大爷的杂货铺,均收录了41篇文章。
所有799名作者都有一席之地,按照收录文章数直观的贡献情况如下,最左边和最上边即为排名前十几的作者情况:
切换成曲线图,按降序排列,可见有一条贴近横坐标,长长的曲线。大多数人无法贡献热门文章,能贡献的人里大多数也只能有一两篇惊艳之作。
799名作者中有84名为签约作者,共贡献625篇文章。不过不知道简书现在到底有多少名签约作者。单看此数据,热门文章里非签约作者占比也还是蛮大。
其他715名为非签约作者,共贡献1291篇文章:
将这1916篇文章对应的799名作者生成如下词云,假如今日头条想像签走知乎300大V一样来签走简书大V,大概可以参考此图。逃......
单人贡献5篇及以上热门文章的,共有69名作者。
6、文章标题
不知道有多少人觉得简书的文章太过鸡汤,或者不熟悉简书的人,是否直接就认为“简书=鸡汤”?那到底是不是这样的呢,看看热门文章都有哪些大概就能知道一二了。标题的数据上文CSV也有不少了,此处将所有标题直接丢一个在线词云网站,看看都有哪些词出现了:
什么、如何、书、英语、大学、推荐、自己、人、坚持、努力......这些词所形成的语境,可以照见背后点赞的简书用户组成还是偏于年轻。虽然可能伤到一些人,但个人感觉一个不完全知道自己喜欢什么、有什么爱好、对学习和生活都没有好的把控的人,或许更会汲汲于阅读这些文章,当然这可能是每个人成长中必须经历的过程,看这些文章可能也会有收获,对自己有所指导,但是否又有很多人其实只是点个赞、收藏下,该如何的生活依旧如何的生活,下次看到类似的文章,依旧点进去,依旧退出来呢?
上面的词云还是太过简单粗暴,调用玻森NLP的API,获取所有标题的词频排名前100的关键词,返回结果如下:
没有了杂乱无章的文字后,在精简的词云里,更可以看出,出现最频繁的词有:你、干货、写作、英语、推荐、大学、努力、书、读书、人生、坚持、方法......嗯。
四、小结
所有假如你是一名非简书用户,看到这些词云和标题,你觉得简书是否等同于鸡汤呢?又或者,你已经是一名简书用户,日常看到的文章,首页上呈现的文章,对你来说又意味着什么呢?
非引战,欢迎评论,共同探讨想法。