看看你的群里都在说什么
2018-06-20 本文已影响180人
右哼哼丨左哼哼
嗯,最近学习词云,就研究了一下jieba,collections,wordcloud模块
先看看成品图吧
Python.jpg
数据收集
从QQ群导出聊天记录(如何导出请自行百度):
预处理信息.png
数据处理
我们并不需要一些干扰信息(如时间,昵称,QQ号等)
信息预处理.png
通过正则处理掉无用的信息
list1=[]
with open("./词云练习/Python.txt","r") as f:
for i in f.readlines():
j=re.findall("\d{4}-\d{2}-\d{2}",i)
# print(j)
if not j:
print(i)
list1.append(i)
处理完成的文本信息
image.png
然后可以开始我们的数据词云化了
词云化所需要的库
from scipy.misc import imread
from collections import Counter
from wordcloud import WordCloud, ImageColorGenerator
import jieba
import re
关于各个库的介绍,起什么作用,不在此赘述了,希望了解的朋友还请自行百度,毕竟这也是学习的过程(其实是懒得打字(^-^)V)
开始分词吧
image.png这里的exclude_words 是属于停止词,就是分词以后,我们进行数据分析时,
所不需要的词汇,所以要用迭代器for....in.... 把分好的词中,含有停止词的词汇排除
开始画图吧
你需要一个简体中文字体库,因为你做的是中文分词,
字体库可以电脑里面找,也可以网上下载个性字体,
把他放在你当前的项目目录就好了
(就是放在你这会儿编辑的py文件的右边,左边也行!(゚▽゚)/)
这里解释一下参照图
man.png
有了参照图以后 你生成的词云也是这个人的样子
否则就是方方正正的图片,如下:
123.jpg
嗯, 这一期词云可视化就到这里了,蛮简单的 ,吃透一次 ,就可以完全理解了
Python.jpg
大家如若有兴趣,欢迎朋友,可以加交流群:692-858-412一起学习
喜欢我的文章可以关注我哦,别忘了点个喜欢!