看看你的群里都在说什么

2018-06-20 本文已影响180人右哼哼丨左哼哼

嗯,最近学习词云,就研究了一下jieba,collections,wordcloud模块
先看看成品图吧

Python.jpg

数据收集

从QQ群导出聊天记录(如何导出请自行百度):

预处理信息.png

数据处理

我们并不需要一些干扰信息(如时间,昵称,QQ号等)

信息预处理.png

通过正则处理掉无用的信息

list1=[]
with open("./词云练习/Python.txt","r") as f:
    for i in f.readlines():
        j=re.findall("\d{4}-\d{2}-\d{2}",i)
        # print(j)
        if not j:
            print(i)
            list1.append(i)

处理完成的文本信息

image.png

然后可以开始我们的数据词云化了
词云化所需要的库

from scipy.misc import imread
from collections import Counter
from wordcloud import WordCloud, ImageColorGenerator
import jieba
import re

关于各个库的介绍,起什么作用,不在此赘述了,希望了解的朋友还请自行百度,毕竟这也是学习的过程(其实是懒得打字(＾－＾)V)

开始分词吧

image.png

这里的exclude_words 是属于停止词,就是分词以后,我们进行数据分析时,
所不需要的词汇,所以要用迭代器for....in.... 把分好的词中,含有停止词的词汇排除

开始画图吧

你需要一个简体中文字体库,因为你做的是中文分词,
字体库可以电脑里面找,也可以网上下载个性字体,
把他放在你当前的项目目录就好了
(就是放在你这会儿编辑的py文件的右边,左边也行!(ﾟ▽ﾟ)/)

image.png
这里解释一下参照图

man.png
有了参照图以后你生成的词云也是这个人的样子
否则就是方方正正的图片,如下:

123.jpg
嗯, 这一期词云可视化就到这里了,蛮简单的 ,吃透一次 ,就可以完全理解了

Python.jpg
大家如若有兴趣，欢迎朋友，可以加交流群：692-858-412一起学习
喜欢我的文章可以关注我哦,别忘了点个喜欢!

看看你的群里都在说什么

数据收集

数据处理

开始分词吧

开始画图吧

猜你喜欢

热点阅读