如何利用Python统计词频并存入CSV文件中

2020-01-28 本文已影响0人一木山舟

先前有一个困恼，想读原版书籍，但是不知道所选书籍的词汇量适不适合自己，所以一直想有一个统计单词的方法。当然，我也百度过发现方法挺多的，大部分是用Python来统计词频，而我最近正在学Python，准备3月份的二级考试，所以就翻了一些文章，查阅了书籍，然后成功的利用一段代码达到我想要的目的：（1）统计一本原版书出现的所有单词；（2）能够看见每个单词在书中出现的次数，并且写入可以处理的文件当中。

完整代码如下：（因为发现简书写代码不太方便就用IDLE写了）

基本思路就是先读取文件；将文件处理一下（单词全部小写，去除不必要的符号）；统计单词，遍历文档中出现的所有单词，并统计数目；最后，写入CSV文件中。

以Educated这本书为例，在我电脑桌面即这个目录下C:\\Users\\小白鼠\\Desktop\\Educated.txt需要有这个文档（需要是TXT格式，其他电子书主流文件格式像epbu，mobi读取不了，需要转换一下）。

IDLE运行完是这个样子：

看起来好像啥也没做，但实际上电脑桌面已经新建了一个CSV文档。

然后打开这个文档，其实就和Excel很类似

稍微排序一下就能看见这本书出现次数最多的单词是哪个单词了

翻到最底下

9293个单词，说明这本书词汇量大概9000左右！词汇量有点大啊！赶快换一本词汇量小点的再读吧！

当然有一些问题

这里把一些不是单词的也统计上了，原因可能就是书中有一些像she's 这样的短语，将引号改为空格之后后面的s就误以为是一个单词了。不过这个问题不大，这样的情况不是特别多，对这本书的整体把握还是有的，还是有一些参考价值的。

以上就是利用一段Python代码实现单词统计，以及词汇量统计的方法，当然代码还可以完善，只是我现在还处于刚入门阶段，过于复杂的代码暂时写不出来。

上一篇下一篇

猜你喜欢

热点阅读