简书.10万数据分析教你如何上首页投稿
数据来源:简书.首页投稿 专题
数据时间:2016.1.10-2016.5.10
数据量:超10万条文章和作者数据
1、2016-04-17 到底发生了什么?阅读量剧增两倍!!!
每天平均阅读量折线图根据分析,每天平均阅读量415772.096,在结合上图,数据答题在40000的位置波动,符合平均阅读量分析。但是在图中有一个明显的尖峰,2016-04-07 阅读量达到914477。到底这一天发生了什么?
原因一:这天文章质量特别特别好?
4个月来,平均每天文章的阅读量是2071.86次,而2016年4月7日平均每篇文章阅读量是2419.25。因此,当天的文章质量和引发的关注度并不能成为阅读量爆增的理由。
真实原因:系统出BUG 啦
2016-04-17发表文章基本信息答案呼之欲出,这一天,奇怪的是大部分文章都被重复发表了两次,显然就是系统的bug。
2、首页投稿管理员们到底有多忙???被选上的概率有多小?
各时间段文章发布率上一篇分析中已经提过,简书用户的活跃时间段是晚上9点到12点,但首页投稿和每天1000字的投稿机制不一样,每天1000字专题的发布时间与投稿时间相差不远,但首页投稿是经过管理员审核的,也就是说文章的发布时间是审核员的工作时间。从上表看出,尽管晚上时段仍然是发表量最大的,但白天工作时间的差异并不是很大。
如果通过掐时间段来进行投稿,从而增加首页投稿收稿的可能性并不会太大。
虽然,我没有得到确切的数据计算通过率,但可以通过其他方面来看看被首页投稿选上的概率有多低?首页投稿的每天发表量是214篇文章,首页投稿一共有16位管理员。也就是说每个管理员每天大概只能审核通过14篇文章,假设管理员都是上班8小时,也就是说每个管理员平均每小时看的文章中筛选出2篇不到的文章收录如首页投稿中。
3、放假,就是连简书都不上了去好好玩
在对每天发表文章量的分析中,我发现了几个明显的低端。阅读量54的这天是除夕,135的这天是清明,而180阅读量的这天是五一。
所以,放假了,就好好玩,写什么文章看什么简书,去玩啊!
4、配图!配图!配图!
重要的事情说三遍。我一共分析了首页投稿有效文章链接26500(某些文章已被作者删除),这两万多篇文章的平均图片数是4.5个。
仅有20%的文章是一张图都没有的
5、文章的类型
简书的文章没有被分类,我通过首页投稿的文章还被哪些专题录收来分析首页投稿文章都属于哪些类型?
有5441篇被首页投稿收录的文章,作者也同样投稿到每天1000字,4716篇文章被世间事收录。这两个专题设计的话题很广泛,而且投稿门槛低,难以反映文章类型。
但蓝色部分就能说明了,首页投稿的文章主要集中在阅读、电影、鸡汤和IT。
因此,如果大家想增加首页投稿被收稿的可能,不妨多写一下这几方面的文章。
6、作者是何方神圣?业余和专业作者区别有多大?
27000篇文章的作者一共是7695位,也就是说平均每名作者有3篇文章被收录,其中签约作者仅仅占了0.8%,七月都是非签约作者。但是,签约作者的文章数、粉丝数、文章阅读量是业余作者的数倍。可见,专业和非专业还是不少的区别。
总是抱怨被管理员无情地拒稿,看看非签约作者的平均粉丝数、文章数、获赞数、总字数,没达到就不要抱怨啦,继续加油!
无处不在的二八定律
以前在咨询实习的时候,遇到无法确定的数据很多时候用二八原则。这条定律仿佛就是万有定力和进化论一样成为了真理。
通过对阅读量进行排序,我发现总阅读量在前20%的作者所写的文章居然占了所有阅读量的88.6%,而占所有作者比例1%都不到的签约作者,居然占有了18%的总阅读量。
所以,对于作者来说,我们可以成为top20%的作者分享88.6%的阅读量,同样也可以成为长尾的一部分,针对某些特定的用户。
二八定律和长尾理论在商业上应用很广,在简书上如果我们把发表文章看作个人品牌的树立过程,那么把这当成是一门生意也未尝不可。
7、找谁当签约作者?
非签约作者平均阅读量TOP 15
阅读量多小和写作水平可能没有直接联系,但与用户的感兴趣程度就绝对成正比。如果我是简书的产品经理,我就一定会尝试让这些作者成为签约作者,推动他们多发文章,增加阅读量,增加粉丝,从而增加用户对简书的依赖程度。
图太多,流量党请见谅。
我能找到很多关于IT和编程的论坛和小组,但各位是否有推荐的针对商业数据分析的论坛和网页,欢迎评论,有任何的意见也同样欢迎评论。
代码github链接:https://github.com/hayleyhou/jianshu-spider/branches