简书用户数据第一篇
最近用Python写了一个简书用户的爬虫,单机耗时30小时抓取了简书30万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这30万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性。下面就带你们看看这30w用户的情况。
一、简书大V
我是以粉丝量评判简书的大V的。从这30w数据中筛选出粉丝量Top10的用户。
1.其中彭小六以113463粉丝居第一位,简黛玉以106667粉丝居第二位,简书的CEO简叔以80533粉丝居第三位。后面的大V的粉丝量和这三位还是有一定的差距。
2.当然了大V可不止10个,我们来看看拥有10000粉丝的用户是怎样一种存在。万粉户共69人,粉丝在两万左右的大V较多。如下图:
3.彭小六一人生生把这个图撑大了
4.简黛玉平均一个喜欢对应一个粉丝儿,堪称粉丝收割机。想来写的东西必然是高质文章,作为一个只看过几篇首页热门文章的萌新不太了解,等会儿先去关注她,坐等好文推送(#滑稽)。
二、简书高质量大V
话不多说,先看一张图。
1.看见没,右上角的剽悍一只猫每篇文章有653.8个赞,每写1000字就收获534.5个赞,真是剽悍了,我的哥,估计篇篇文章上首页。
2.再看看右下角这位阿琴姑娘 ,近550赞/千字,估计写的都是高质量短篇。好吧,去复制她首页的时候发现是写诗的,唉,曾经我也是爱诗的小少年。可惜现在都成粗人一个了……
3.简叔就不说啦,开创简书的大佬!
4.图中中间偏上部分几位,具有很强悍的实力,应该也是长居首页,且有大批真爱粉。他们的主页| 入江之鲸 | 三顿ppt | 安梳颜 | 十三夜 | Josie乔 | 韩大爷的杂货铺 | 叶上清之宿雨
5.左下角的这些分布较密集,处于简书金字塔的第二层。应该也是频繁出现在热门里。将来进阶神级的储备大V!
三、高冷的大V
我以前以为大V都是高冷的,为了证明我是错的,我画了张图(根据粉丝数/关注数画的)
1.尹惟楚、韩大爷的杂货铺、鹿人三千这三位没关注一个人。那么多粉丝,你都不看一眼吗(卖萌脸)。
2.纯银V,Josie乔,经典重读只关注了1个人。说吧,和这个人什么关♂系♀??
3.彭小六、简黛玉、毒舌电影也仅仅是只关注了寥寥几个人。
4.好吧,看来我确实没错,大V确实够高冷(扎心了.jpg)。
当然了,那几块最小的也是关注别人比较多的。比如万分户阿琴姑娘就是个勤奋的姑娘呢,关注了7000多个人。官方号简书也关注了2300多人。常驻首页的刘淼也关注了900多人。
四、码字狂人
在简书写了100万字的用户有15位
1.毒舌电影这位码字最多330多万字(截止2017/6/9)。330万啊,印成书也要大几本,刚查了下,四大名著加起来也才350万字。可怕,不知道这位佬到底要看多少电影才写出那么多文章。
2.又见简黛玉,图中可以看出,码字(以万为单位)多粉丝(图中以百为单位)也多。本来应该把这个数据去除的,因为她把图撑歪了,汗……
3.Sting、憨憨故事、鸭梨山大哎、知识分子、志造美、姚超龙、历史的星辰这几位码了很多字,却没有收获多少赞,不知是文章质量不高,还是怀才不遇。不过能码百万字也不容易,我这markdown新手,添加超链接简直要手软。。。
说了那么久,说的都是大V,下面也说简书里的小透明吧。
五、关注狂魔
就不画图了,直接数据库里面截图看看,关注别人最多的前十位用户。
1.临川人名列第一,居然关注了12866人,这位老哥,不知道你的简书时间线会爆炸不。
2.桐子树下也关注了一万多人,真是厉害。
3.Athena79这位神奇的用户,关注了7000多人,却一个字也没写过。也不是啥也没有,毕竟190个人回粉了嘛,哈哈。
六、用户都拥有多少粉丝
先来统计下,本来我想以十/百/千/万为阶段,然而没想到超过10个粉丝的不到30万用户的10%。只好以零/五/十/百/千/万为阶段了。先用代码统计下:
import pymongo
client = pymongo.MongoClient("localhost", 27017)
db = client['JianShu']
print('粉丝为0:',db.user.count({'followers_num':0}))
print('0<粉丝≤5:',db.user.count({'followers_num':{'$gt':0,'$lte':5}}))
print('5<粉丝≤10:',db.user.count({'followers_num':{'$gt':5,'$lte':10}}))
print('10<粉丝≤100:',db.user.count({'followers_num':{'$gt':10,'$lte':100}}))
print('100<粉丝≤1000:',db.user.count({'followers_num':{'$gt':100,'$lte':1000}}))
print('1000<粉丝≤10000:',db.user.count({'followers_num':{'$gt':1000,'$lte':10000}}))
print('粉丝>10000:',db.user.count({'followers_num':{'$gt':10000}}))
#输出
粉丝为0: 172589
0<粉丝≤5: 88812
5<粉丝≤10: 13052
10<粉丝≤100: 19928
100<粉丝≤1000: 4851
1000<粉丝≤10000: 699
粉丝>10000: 69
1.粉丝为0的有172589人。哈哈哈哈哈哈哈哈哈哈哈哈哈哈,看来0粉的我并不孤独。等我攒一个粉丝就超过了一半以上的人,想想还有点小激动呢,嘿嘿。
2.越往上走人越少啊,粉丝超过100的居然只有5000多人了,看来各位简友还需努力。别只看别人写,也动下自己的小手手,分享出你认为有价值的东西,记录生活,记录学习(这特么是对我自己说的么?道理都懂,然而我……!)。
3.算了,直接放个大饼,你们看看吧
用户粉丝数.jpg
七、平均数
哈?平均数?又要被平均了?
是的,来看看你被平均的有多惨。
1.平均每人有19.27个粉丝
2.平均每人关注17.28个人
3.平均每人被喜欢43.35次
4.平均每人写5082.66字
哈哈,也不是很惨嘛。虽然平均数很低,还是没达到吧,红红火火恍恍惚惚。
你们简直太弱,我和彭小六平均粉丝有50000+!
总结
1. 平均每人有19.27个粉丝,平均每人关注17.28个人
这里粉丝与关注不对等,没有形成闭环。说明还是数据代表性还不是非常强。(毕竟我只抓了大V的粉丝,没有进行二级用户粉丝抓取)
2. 哪还有2???不存在的!反正我又不2!
连分析带写用了近一天(我怎么那么慢?有点怀疑人生),手软,下次再写吧。很久没有写那么多字了,思路可能有些混乱还有不严谨的地方,望各位拍砖指正,谢谢阅读!第一次在简书分享,有点小激动。
爬虫源码:https://github.com/malone6/Jianshu ,欢迎到github给我star
声明:本文原创,其他平台转载务必简信给我