快乐的pythoner程序员python热爱者

教你用Python进行中文词频统计

2017-12-06  本文已影响1319人  bd6b5cde5ce9

Python是用于数据挖掘的利器

用Python可以用来做很多很好玩的东西,下面就来用Python来进行词频统计

最近我们单位在学习十九大报告,我就把报告进行了词频统计,统计结果如下图

可以看出,发展仍是中国目前最需要的。

1、用到了那些东西?

其实,我们这里用到的只不过是强大的Python扩展中的 jieba。

想要详细了解大家可以搜索一下。我这里只用到了它们的基本功能。

安装就不再赘述了,大家应该都比较熟了

2、具体操作

是不是很简单。

前面四行是引入相应的扩展或对象

然后获取当前执行文件的路径,

打开我们的文件,如果想练技术可以从网上爬虫一下生成这个报告。path.join 合成文件路径

调用jieba函数进行分词,转化成list对象

调用Couter对象的函数,统计每个词出现的次数,并且取最高的50个 转化为dict 

循环data 写入新的文件

OK 结束 

进入我们的环境 

source xxxx/bin/activate

python xxx.py

运行成功。

作为新手,从这段代码中可以学习拓展一下几个知识点

(1)    python 对文件的读写

常用的是 

with open("文件",'操作方式','编码方式') as fw #注意 编码方式使用不当可能会引起中文乱码

(2)    list dict的转换

list() dict()

(3)    dict循环

for key, value in dict.items()

3、learn more

大家可能看到了word_cloud,这是一个好玩有趣的东西

用了它

是不是Cool多了

具体代码

上面代码中牵涉到几个知识点

(1)字符串前加r是为了防止转义。保留特殊字符

(2)wordcloud 默认不支持中文,可以引用一个本机的字体文件,mac默认路径就是这个

 后面就是引用的一些扩展中函数的使用,就不展开介绍了。

大家想研究可以去clone它们的Github

Good Good Study Day Day up

上一篇下一篇

猜你喜欢

热点阅读