读txt文件,并统计词频,自己编辑停词表

2018-10-09  本文已影响12人  曦宝
image.png
image.png
image.png

如果用科普类的图书效果也许更加明显


image.png
程序没有变,只是把文章变成了《果壳中的宇宙》,效果更加明显。
停词表

这里再补充一点,自己之前没有注意过的,其实应该能想到,但是之前一直不肯定,迷迷糊糊的,看过代码之后确定了,在这里叨叨一句


image.png
image.png
image.png
看代码说明的第一句,这里的统计值,是经过tfidf计算之后的,不单单是词频,而是“重要性”,加上逆文本频率之后的结果。
上一篇 下一篇

猜你喜欢

热点阅读