教你用Python进行中文词频统计

2017-12-06 本文已影响1319人 bd6b5cde5ce9

Python是用于数据挖掘的利器

用Python可以用来做很多很好玩的东西，下面就来用Python来进行词频统计

最近我们单位在学习十九大报告，我就把报告进行了词频统计，统计结果如下图

可以看出，发展仍是中国目前最需要的。

1、用到了那些东西？

其实，我们这里用到的只不过是强大的Python扩展中的 jieba。

想要详细了解大家可以搜索一下。我这里只用到了它们的基本功能。

安装就不再赘述了，大家应该都比较熟了

是不是很简单。

前面四行是引入相应的扩展或对象

然后获取当前执行文件的路径，

打开我们的文件，如果想练技术可以从网上爬虫一下生成这个报告。path.join 合成文件路径

调用jieba函数进行分词，转化成list对象

调用Couter对象的函数，统计每个词出现的次数，并且取最高的50个转化为dict

循环data 写入新的文件

OK 结束

进入我们的环境

source xxxx/bin/activate

python xxx.py

运行成功。

作为新手，从这段代码中可以学习拓展一下几个知识点

(1) python 对文件的读写

常用的是

with open("文件",'操作方式','编码方式') as fw #注意编码方式使用不当可能会引起中文乱码

(2) list dict的转换

list() dict()

(3) dict循环

for key, value in dict.items()

大家可能看到了word_cloud，这是一个好玩有趣的东西

用了它

是不是Cool多了

具体代码

上面代码中牵涉到几个知识点

（1）字符串前加r是为了防止转义。保留特殊字符

（2）wordcloud 默认不支持中文，可以引用一个本机的字体文件，mac默认路径就是这个

后面就是引用的一些扩展中函数的使用，就不展开介绍了。

大家想研究可以去clone它们的Github

Good Good Study Day Day up