教你用Python进行中文词频统计
Python是用于数据挖掘的利器
用Python可以用来做很多很好玩的东西,下面就来用Python来进行词频统计
最近我们单位在学习十九大报告,我就把报告进行了词频统计,统计结果如下图
可以看出,发展仍是中国目前最需要的。
1、用到了那些东西?
其实,我们这里用到的只不过是强大的Python扩展中的 jieba。
想要详细了解大家可以搜索一下。我这里只用到了它们的基本功能。
安装就不再赘述了,大家应该都比较熟了
2、具体操作
是不是很简单。
前面四行是引入相应的扩展或对象
然后获取当前执行文件的路径,
打开我们的文件,如果想练技术可以从网上爬虫一下生成这个报告。path.join 合成文件路径
调用jieba函数进行分词,转化成list对象
调用Couter对象的函数,统计每个词出现的次数,并且取最高的50个 转化为dict
循环data 写入新的文件
OK 结束
进入我们的环境
source xxxx/bin/activate
python xxx.py
运行成功。
作为新手,从这段代码中可以学习拓展一下几个知识点
(1) python 对文件的读写
常用的是
with open("文件",'操作方式','编码方式') as fw #注意 编码方式使用不当可能会引起中文乱码
(2) list dict的转换
list() dict()
(3) dict循环
for key, value in dict.items()
3、learn more
大家可能看到了word_cloud,这是一个好玩有趣的东西
用了它
是不是Cool多了
具体代码
上面代码中牵涉到几个知识点
(1)字符串前加r是为了防止转义。保留特殊字符
(2)wordcloud 默认不支持中文,可以引用一个本机的字体文件,mac默认路径就是这个
后面就是引用的一些扩展中函数的使用,就不展开介绍了。
大家想研究可以去clone它们的Github
Good Good Study Day Day up