有个神奇的网站,让你轻松在线做词频分析
想必你会有这样的需求:知道一篇文章或者一本书中哪些词汇出现的频率最高。你可能认为这需要什么复杂的付费软件甚至写程序,其实不然,有个特别简单的在线词频分析工具。
闲话少说,直接上网址:
这是教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”。这个网站有一项功能就是词频分析。下面我以分析文本《阿Q正传》为例,介绍一下该网站如何使用。
1.打开网站,左侧的导航栏有“语料分析处理”,其中有“字词频率统计”:
2.点击“字词频率统计”,注意此处一次最多可分析10万字,如果超过这个字数,可以分多次处理:
3.《阿Q正传》大约一万多字,从word里复制粘贴进去:
4.点击右侧的“词频统计”,即可立刻得出结果:
5.统计结果可以导出txt,然后复制到excel里做进一步的分析。需要注意的是,导出的结果会出现下面这种错位情况,需要在excel做调整,好在错误只占少数:
《阿Q正传》的统计结果一共是2948个字词及符号,此处“出现频率”的单位是百分比(%):
排在第一的文字是“的”,出现了712次,占了全文的4.4453%。对不对呢?我们在原文的word里核实一下:
在word里,查找出了747个“的”,比上面的统计结果多出了35个,这是为什么呢?
原因很简单,有些“的”被切进了其他词,比如“似的”“别的”“的确”等等,加在一起正好是747个,一个都不少。
不过,这个工具的确有不完善之处,比如同一个词重复出现,或者被切错,因此使用时一定要在excel里筛选一下。
如上图所示,“赵”“赵家”“赵司”都重复出现了,而且“赵家”还出现在了“连赵家”里,核实一下word,“赵家”一词确实出现了11次。
不过这个不完善之处并不妨碍使用,这个工具毕竟可以提供一个比较可靠的线索,准确的数据还需要在excel里仔细统计。
我们来看下迅翁在《阿Q正传》里最喜欢用哪些字词。
单字:
这20个单字加在一起一共出现了5118次,占了全文的31.95%!
词汇:
“阿Q”在语料库里并不是一个词,所以没被切出,该词在文章中出现了274次,应该位居第一。
从结果来看,迅翁和大家一样,很喜欢用口语化的词,在一篇一万多字的文章中就用了45次“因为”,用了35次“而且”!但是迅翁就是迅翁,这些普通的词在他的笔下出神入化,构成了文学经典。
大家如有兴趣,不妨去试一试这个工具。