tf_idf 使用流程

2020-08-14  本文已影响0人  空无_ae80

文本预处理

(1)分句        替换\n

(2)分词        jiabe jiagu,hanlp,pkuseg

(3)取出标点 ,.?"";

(4)取出停用词

tf-idf

(1)词带

(2)tf

第一步,计算词频。

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

或者

第二步,计算逆文档频率。

这时,需要一个语料库(corpus),用来模拟语言的使用环境。

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步,计算TF-IDF。

tf_idf的功能

(1) 获得关键词

(2)文本相似性

(3)摘要

(4)文章主题

上一篇 下一篇

猜你喜欢

热点阅读