读txt文件,并统计词频,自己编辑停词表
2018-10-09 本文已影响12人
曦宝



如果用科普类的图书效果也许更加明显

程序没有变,只是把文章变成了《果壳中的宇宙》,效果更加明显。

这里再补充一点,自己之前没有注意过的,其实应该能想到,但是之前一直不肯定,迷迷糊糊的,看过代码之后确定了,在这里叨叨一句



看代码说明的第一句,这里的统计值,是经过tfidf计算之后的,不单单是词频,而是“重要性”,加上逆文本频率之后的结果。
如果用科普类的图书效果也许更加明显
这里再补充一点,自己之前没有注意过的,其实应该能想到,但是之前一直不肯定,迷迷糊糊的,看过代码之后确定了,在这里叨叨一句