简书说数据乐园大数据

简书用户数据第一篇

2017-06-11  本文已影响6218人  浪费了昨天

最近用Python写了一个简书用户的爬虫,单机耗时30小时抓取了简书30万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这30万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性。下面就带你们看看这30w用户的情况。


一、简书大V

我是以粉丝量评判简书的大V的。从这30w数据中筛选出粉丝量Top10的用户。

简书top10|center
1.其中彭小六以113463粉丝居第一位,简黛玉以106667粉丝居第二位,简书的CEO简叔以80533粉丝居第三位。后面的大V的粉丝量和这三位还是有一定的差距。
2.当然了大V可不止10个,我们来看看拥有10000粉丝的用户是怎样一种存在。万粉户共69人,粉丝在两万左右的大V较多。如下图:

3.彭小六一人生生把这个图撑大了

4.简黛玉平均一个喜欢对应一个粉丝儿,堪称粉丝收割机。想来写的东西必然是高质文章,作为一个只看过几篇首页热门文章的萌新不太了解,等会儿先去关注她,坐等好文推送(#滑稽)。

二、简书高质量大V

话不多说,先看一张图。

文章赞与千字赞.png
1.看见没,右上角的剽悍一只猫每篇文章有653.8个赞,每写1000字就收获534.5个赞,真是剽悍了,我的哥,估计篇篇文章上首页。
2.再看看右下角这位阿琴姑娘 ,近550赞/千字,估计写的都是高质量短篇。好吧,去复制她首页的时候发现是写诗的,唉,曾经我也是爱诗的小少年。可惜现在都成粗人一个了……
3.简叔就不说啦,开创简书的大佬!
4.图中中间偏上部分几位,具有很强悍的实力,应该也是长居首页,且有大批真爱粉。他们的主页| 入江之鲸 | 三顿ppt | 安梳颜 | 十三夜 | Josie乔 | 韩大爷的杂货铺 | 叶上清之宿雨
5.左下角的这些分布较密集,处于简书金字塔的第二层。应该也是频繁出现在热门里。将来进阶神级的储备大V!

三、高冷的大V

我以前以为大V都是高冷的,为了证明我是错的,我画了张图(根据粉丝数/关注数画的)

万粉大V高冷度.png
1.尹惟楚韩大爷的杂货铺鹿人三千这三位没关注一个人。那么多粉丝,你都不看一眼吗(卖萌脸)。
2.纯银VJosie乔经典重读只关注了1个人。说吧,和这个人什么关♂系♀??
3.彭小六简黛玉毒舌电影也仅仅是只关注了寥寥几个人。
4.好吧,看来我确实没错,大V确实够高冷(扎心了.jpg)。
  当然了,那几块最小的也是关注别人比较多的。比如万分户阿琴姑娘就是个勤奋的姑娘呢,关注了7000多个人。官方号简书也关注了2300多人。常驻首页的刘淼也关注了900多人。

四、码字狂人

在简书写了100万字的用户有15位

简书百万字.jpg
1.毒舌电影这位码字最多330多万字(截止2017/6/9)。330万啊,印成书也要大几本,刚查了下,四大名著加起来也才350万字。可怕,不知道这位佬到底要看多少电影才写出那么多文章。
2.又见简黛玉,图中可以看出,码字(以万为单位)多粉丝(图中以百为单位)也多。本来应该把这个数据去除的,因为她把图撑歪了,汗……
3.Sting憨憨故事鸭梨山大哎知识分子志造美姚超龙历史的星辰这几位码了很多字,却没有收获多少赞,不知是文章质量不高,还是怀才不遇。不过能码百万字也不容易,我这markdown新手,添加超链接简直要手软。。。

说了那么久,说的都是大V,下面也说简书里的小透明吧。

五、关注狂魔

就不画图了,直接数据库里面截图看看,关注别人最多的前十位用户。


1.临川人名列第一,居然关注了12866人,这位老哥,不知道你的简书时间线会爆炸不。
2.桐子树下也关注了一万多人,真是厉害。
3.Athena79这位神奇的用户,关注了7000多人,却一个字也没写过。也不是啥也没有,毕竟190个人回粉了嘛,哈哈。

六、用户都拥有多少粉丝

先来统计下,本来我想以十/百/千/万为阶段,然而没想到超过10个粉丝的不到30万用户的10%。只好以零/五/十/百/千/万为阶段了。先用代码统计下:

import pymongo
client = pymongo.MongoClient("localhost", 27017)
db = client['JianShu']
print('粉丝为0:',db.user.count({'followers_num':0}))
print('0<粉丝≤5:',db.user.count({'followers_num':{'$gt':0,'$lte':5}}))
print('5<粉丝≤10:',db.user.count({'followers_num':{'$gt':5,'$lte':10}}))
print('10<粉丝≤100:',db.user.count({'followers_num':{'$gt':10,'$lte':100}}))
print('100<粉丝≤1000:',db.user.count({'followers_num':{'$gt':100,'$lte':1000}}))
print('1000<粉丝≤10000:',db.user.count({'followers_num':{'$gt':1000,'$lte':10000}}))
print('粉丝>10000:',db.user.count({'followers_num':{'$gt':10000}}))
#输出
粉丝为0: 172589
0<粉丝≤5: 88812
5<粉丝≤10: 13052
10<粉丝≤100: 19928
100<粉丝≤1000: 4851
1000<粉丝≤10000: 699
粉丝>10000: 69

1.粉丝为0的有172589人。哈哈哈哈哈哈哈哈哈哈哈哈哈哈,看来0粉的我并不孤独。等我攒一个粉丝就超过了一半以上的人,想想还有点小激动呢,嘿嘿。
2.越往上走人越少啊,粉丝超过100的居然只有5000多人了,看来各位简友还需努力。别只看别人写,也动下自己的小手手,分享出你认为有价值的东西,记录生活,记录学习(这特么是对我自己说的么?道理都懂,然而我……!)。
3.算了,直接放个大饼,你们看看吧


用户粉丝数.jpg

七、平均数

哈?平均数?又要被平均了?
是的,来看看你被平均的有多惨。

1.平均每人有19.27个粉丝
2.平均每人关注17.28个人
3.平均每人被喜欢43.35
4.平均每人写5082.66

哈哈,也不是很惨嘛。虽然平均数很低,还是没达到吧,红红火火恍恍惚惚。
你们简直太弱,我和彭小六平均粉丝有50000+!


总结

1. 平均每人有19.27个粉丝,平均每人关注17.28个人
这里粉丝与关注不对等,没有形成闭环。说明还是数据代表性还不是非常强。(毕竟我只抓了大V的粉丝,没有进行二级用户粉丝抓取)
2. 哪还有2???不存在的!反正我又不2!

连分析带写用了近一天(我怎么那么慢?有点怀疑人生),手软,下次再写吧。很久没有写那么多字了,思路可能有些混乱还有不严谨的地方,望各位拍砖指正,谢谢阅读!第一次在简书分享,有点小激动。

爬虫源码:https://github.com/malone6/Jianshu ,欢迎到github给我star

声明:本文原创,其他平台转载务必简信给我

上一篇下一篇

猜你喜欢

热点阅读