我爬取了微信公众号的粉丝留言数,发现了这样有趣的 事情
菜鸟独白
前几天公众号发起了一个送书活动(送书6本,等你来拿),后台有很多粉丝留言,很快就超过100条留言。送书有一个要求,留言字数要40以上,我为了更好的统计分析这些留言数据,更好的选出中奖的名单,我干脆把微信的留言数据爬下来分析一下,结果还真发现不少有意思的事!
1.爬取微信公众号的留言数据
微信的留言数据并不是很难爬,我为了方便我用了第三方的爬取工具Web scraper,这个工具算是神器还比较方便,我大概用了2分钟左右把所有的留言数都爬取了下来.
一共168条留言数据,大概的内容长这样:
我主要采集的姓名,留言的内容和留言时间3个维度去分析了一下. 为了更好的分析数据:我把留言的内容的字数进行了统计,把留言的时间进行了细分,看最快的跟帖留言时间。用Pandas进行清洗完成之后数据集:
2.数据的简单分析
1).数据集一共168条留言:
一共有7个维度(留言姓名,内容,时间,字数长度,时间长度,几天,多少分钟)
小编推荐一个学Python的学习裙【六六三,零三三,二二八 】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!
2).看一下整个数据集的全貌:
发现:最长的留言是562个字,最短的是6个字,最快跟帖是3分钟,真的是神一样的速度,最慢的跟帖是2381分钟,大概就是我发了贴之后的40个小时之后才跟帖的.
3).看看数据集里面有没有缺失值
df[df['name'].isnull()]
还真有3个人的名字是空值,不知道是不是爬取数据的时候问题
4).有没有重复留言的同学
有的同学非常热心,会重复留言,这里面一定有真爱粉!我们来看一下都有谁:
一共有17位同学
5).留言字数40字以上的
当时我送书的留言明确申明,字数要在40字以上,
一共168条留言:
40字以下:50人
40字以上:118人
100字以上:56人
200字以上:7个
40-100字的最多,200字以上的应该是有很多故事要说给我听!40字以下和100字以上的人数非常接近。
6).发现留言字数最长的前3名:
NaN到底是谁,神秘粉丝!
7).留言字数VS留言时间
从留言字数和时间维度上分析,一共分4个区块:
第一个区块:是最集中的在0-300分钟,也就是公众号文章发布的5个小时以内,粉丝的关注度最为密集!
第二个区块:是集中在500-1100分钟,也就是公众号文章发布的8-20小时,我的文章是早上7点左右发布的,也就是下午3点到-半夜的时间,这个区间的留言数已经开始稀稀疏疏了。而且字数明显下降很多。
第三个区块:是集中在1400-2100分钟,也就是第二天的早上6点-晚上7点,粉丝数留言又来开始增多,但在字数很明显下降的更多。
第四个区块:发文章之后很迅速的留言,并且字数还很多的,这就是第四个区块!时间在0-200分钟,也就是2-3小时以内,字数在200字以上,很明显最忠实的粉丝,最希望要这本书的粉丝就在这个区间。
3.中奖名单揭晓:
过滤出字数大于200字,留言迅速跟帖的时间在300分钟以内的同学