如何利用Python统计词频并存入CSV文件中

2020-01-28  本文已影响0人  一木山舟

先前有一个困恼,想读原版书籍,但是不知道所选书籍的词汇量适不适合自己,所以一直想有一个统计单词的方法。当然,我也百度过发现方法挺多的,大部分是用Python来统计词频,而我最近正在学Python,准备3月份的二级考试,所以就翻了一些文章,查阅了书籍,然后成功的利用一段代码达到我想要的目的:(1)统计一本原版书出现的所有单词;(2)能够看见每个单词在书中出现的次数,并且写入可以处理的文件当中。

完整代码如下:(因为发现简书写代码不太方便就用IDLE写了)

基本思路就是先读取文件;将文件处理一下(单词全部小写,去除不必要的符号);统计单词,遍历文档中出现的所有单词,并统计数目;最后,写入CSV文件中。

以Educated这本书为例,在我电脑桌面即这个目录下C:\\Users\\小白鼠\\Desktop\\Educated.txt需要有这个文档(需要是TXT格式,其他电子书主流文件格式像epbu,mobi读取不了,需要转换一下)。

IDLE运行完是这个样子:

看起来好像啥也没做,但实际上电脑桌面已经新建了一个CSV文档。

然后打开这个文档,其实就和Excel很类似

稍微排序一下就能看见这本书出现次数最多的单词是哪个单词了

翻到最底下

9293个单词,说明这本书词汇量大概9000左右!词汇量有点大啊!赶快换一本词汇量小点的再读吧!

当然有一些问题

这里把一些不是单词的也统计上了,原因可能就是书中有一些像she's 这样的短语,将引号改为空格之后后面的s就误以为是一个单词了。不过这个问题不大,这样的情况不是特别多,对这本书的整体把握还是有的,还是有一些参考价值的。

以上就是利用一段Python代码实现单词统计,以及词汇量统计的方法,当然代码还可以完善,只是我现在还处于刚入门阶段,过于复杂的代码暂时写不出来。

上一篇 下一篇

猜你喜欢

热点阅读