Python爬虫作业爬虫专题大数据 爬虫Python AI Sql

我爬取了微信公众号的粉丝留言数,发现了这样有趣的 事情

2018-04-27  本文已影响109人  Python社区

菜鸟独白
前几天公众号发起了一个送书活动(送书6本,等你来拿),后台有很多粉丝留言,很快就超过100条留言。送书有一个要求,留言字数要40以上,我为了更好的统计分析这些留言数据,更好的选出中奖的名单,我干脆把微信的留言数据爬下来分析一下,结果还真发现不少有意思的事!

1.爬取微信公众号的留言数据

微信的留言数据并不是很难爬,我为了方便我用了第三方的爬取工具Web scraper,这个工具算是神器还比较方便,我大概用了2分钟左右把所有的留言数都爬取了下来.

一共168条留言数据,大概的内容长这样:

我主要采集的姓名,留言的内容和留言时间3个维度去分析了一下. 为了更好的分析数据:我把留言的内容的字数进行了统计,把留言的时间进行了细分,看最快的跟帖留言时间。用Pandas进行清洗完成之后数据集:

2.数据的简单分析

1).数据集一共168条留言:

一共有7个维度(留言姓名,内容,时间,字数长度,时间长度,几天,多少分钟)

小编推荐一个学Python的学习裙【六六三,零三三,二二八 】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

2).看一下整个数据集的全貌:

发现:最长的留言是562个字,最短的是6个字,最快跟帖是3分钟,真的是神一样的速度,最慢的跟帖是2381分钟,大概就是我发了贴之后的40个小时之后才跟帖的.

3).看看数据集里面有没有缺失值

df[df['name'].isnull()]

还真有3个人的名字是空值,不知道是不是爬取数据的时候问题

4).有没有重复留言的同学

有的同学非常热心,会重复留言,这里面一定有真爱粉!我们来看一下都有谁:

一共有17位同学

5).留言字数40字以上的

当时我送书的留言明确申明,字数要在40字以上,

一共168条留言:

40字以下:50人

40字以上:118人

100字以上:56人

200字以上:7个

40-100字的最多,200字以上的应该是有很多故事要说给我听!40字以下和100字以上的人数非常接近。

6).发现留言字数最长的前3名:

NaN到底是谁,神秘粉丝!

7).留言字数VS留言时间

从留言字数和时间维度上分析,一共分4个区块

第一个区块:是最集中的在0-300分钟,也就是公众号文章发布的5个小时以内,粉丝的关注度最为密集!

第二个区块:是集中在500-1100分钟,也就是公众号文章发布的8-20小时,我的文章是早上7点左右发布的,也就是下午3点到-半夜的时间,这个区间的留言数已经开始稀稀疏疏了。而且字数明显下降很多。

第三个区块:是集中在1400-2100分钟,也就是第二天的早上6点-晚上7点,粉丝数留言又来开始增多,但在字数很明显下降的更多。

第四个区块:发文章之后很迅速的留言,并且字数还很多的,这就是第四个区块!时间在0-200分钟,也就是2-3小时以内,字数在200字以上,很明显最忠实的粉丝,最希望要这本书的粉丝就在这个区间。

3.中奖名单揭晓:

过滤出字数大于200字,留言迅速跟帖的时间在300分钟以内的同学

上一篇 下一篇

猜你喜欢

热点阅读