QQ文本分析—R语言
1、参考文献
设置超链接:时间分布和成员分析 ;QQ聊天内容 ;recharts安装包官方介绍
2、读入QQ聊天记录
文本内容
QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息”
时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况
特殊的第十行
可以发现第十行的时间,用户都为空格
文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称
3、时间分析
3.1、一星期分布
QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天
想知道周二总共有过多少次发言吗?
把鼠标点在周二的“柱形”上就可以知道了
![](https://img.haomeiwen.com/i5616135/441103f62655dea9.png)
3.2、24小时分布
聊天兴致在一天中的分布
交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多
![](https://img.haomeiwen.com/i5616135/cc94d4e04ca38e6f.png)
3.3、每天的发言次数分布
如何知道“折线图”中,高峰期是哪一天呢?
把鼠标点在高峰期就可以知道了
点击右上角柱形图标,即可展示为柱形图
![](https://img.haomeiwen.com/i5616135/c8f3311a68cf87b5.png)
每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子
其实是一个很普通的周四(不过节,不放假)
小技巧
想要在页面里展现更多行吗?
在show 10 entries里选择想要的页数吧
4、聊天内容分析
4.1、初次分词结果
根据搜狗词库日常聊天用语词库对数据进行分词。
从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除
![](https://img.haomeiwen.com/i5616135/4bb09902730e75e8.png)
5.2、字符长度大于1的词汇
排列前三的为图片、表情、你们
“李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群
![](https://img.haomeiwen.com/i5616135/7101945b22e40c48.png)
5.3、删除初次分词中无意义信息
删除一些无意信息后,“图片”,“表情”仍为主要词汇
看来“吃”是群里的主要话题
![](https://img.haomeiwen.com/i5616135/b057ca5cb1cbdc8f.png)
5.4、展示清除后,排名前1500的词
同时删除“图片”,“表情”两词
![](https://img.haomeiwen.com/i5616135/c861556f42b95790.png)