大数据,机器学习,人工智能商业智能BI那点事儿数据分析

王宝强事件的数据分析

2018-08-01  本文已影响15人  天善智能

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tsaiedu,并注明消息来源,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

天善学院2018年度SVIP 998特惠即将结束!https://www.hellobi.com/svip一众一线名企名师,一波数据分析+人工智能+商业智能绝对好课!

作者:挖数 腾讯数据产品经理 & 段子手

个人微信公号:washu66


王宝强离婚事件,在全球华人圈刮起了一阵旋风,不仅让王宝强本人的百度搜索指数在1天时间飙升835倍

也让事件的女主角马蓉的微博粉丝从几十万飙升到现在的534万。

周末忙里偷闲写了个爬虫,爬下了马蓉最后一条微博上面的评论的数据

截止目前该条微博已经有454万条评论,花了2天时间爬下了接近50万条,这些数据包括评论内容、评论人性别、出生日期、地理位置共4个维度的信息,经过统计处理,发现了以下有趣的点:

对50万条评论内容进行去重分词

最多人提及的词语是“贱人”,共有18%的人提及,接下来是“不要脸”,共有9.8%的人提及,然后是出轨,6.6%的人提及,然后有5.6%的人关心起了王的孩子,4%的人觉得马蓉是现代潘金莲,2.3%的人四级没过不会写英文的bitch写成了碧池,2.3%的人好心提醒大家记得取关马蓉,不给涨粉,1.3%的人质疑马校花的身份,1.3%的人骂起了脏话他妈的。

本来以为关注这件事并评论的人应该女性占大部分,结果

评论的人居然接近50%都是男性。

根据年龄统计,则是

按照地理位置统计,则是

Top10省份中,广东的人无疑是最八卦的,或者说对这件事的反应是最激烈的。

最后恭喜一下我们的成都,成为八卦之都,因为从城市分布上看最多的评论者来自这里。

一套SVIP课程,15选8,每套课程均价112!知识付费的时代,一次旅游的钱便能收获8大全方位、多体系的课程

更有全场六折优惠课程,为你加油助力!

上一篇下一篇

猜你喜欢

热点阅读