使用python结巴分词获得微信功能点词云图
一、原料和准备
1.从网上爬虫的文档,保存为txt文档,本例来源https://www.zhihu.com/question/23178234?from=groupmessage&isappinstalled=0&utm_medium=social&utm_source=wechat_session
2.停用词表(网上可搜索到。txt文档)
3.结巴工具(参看网上下载安装方法,小白最好用pycharm编辑器)
4.做词云的工具:
第一种, TAGUL, https://tagul.com/ 一款在线词云制作工具,非常简单(但是多英文很友好,中文需要在window里找到字体)。
第二种,Tagxedo:http://www.tagxedo.com/有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)等等,最重要的是它支持中文。
二、过程
importjieba.analyse
path ='D:\python\\view.txt'#网络爬虫文档
file_in = open(path,'rb')
content = file_in.read()
try:
jieba.analyse.set_stop_words('D:\python\dict.txt')#停用词表地址
tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
forv, nintags:
#权重是小数,为了凑整,乘了一万
print(v +'\t'+ str(int(n *10000)))
finally:
file_in.close()
程序运行结果:
C:\Users\Sakura\AppData\Local\Programs\Python\Python36-32\python.exe D:/python.(pycharm)edit/untitled/111111.py
Building prefix dictfromthe default dictionary ...
Loading modelfromcache C:\Users\Sakura\AppData\Local\Temp\jieba.cache
Loading model cost1.328seconds.
Prefix dict has been built succesfully.
朋友圈2738
微信1851
功能1302
好友821
可以767
屏蔽755
删除658
分组560
消息548
聊天记录531
语音523
聊天472
希望440
QQ394
订阅379
评论335
添加319
对方315
已读314
信息314
公众299
一个292
群聊290
一键271
发送257
增加257
表情255
回复254
图片253
时候236
转发230
内容230
提醒225
自动217
文章215
设置209
朋友208
头像206
或者189
看到188
手机187
分享182
自己174
模式168
点赞166
不想163
不能160
文字160
夜间160
对话框158
提示157
代购148
有个148
查看144
用户144
别人144
搜索142
匿名142
照片142
...141
置底141
不是140
界面139
账号139
可见135
群里135
对话134
视频133
自定义132
推送132
这个128
标签128
批量127
一样125
需要125
通讯录125
qq123
未读123
每次123
现在122
真的122
保存119
打开118
这样118
选择116
比如114
不要113
显示111
class111
知乎 111
记录 110
阅读 109
应该 108
浏览 108
知道 104
方便 104
按钮 103
所有 101
红包 99
小视频 98
Processfinishedwithexitcode0
三、词云制作
本次选择使用的Tagxedo:http://www.tagxedo.com/
需要注意的是:粘贴文本时,关键词之间需要使用制表符或者回车键分开。选了一个普通的圆形。
这次微信的功能点分析的词云图