深度学习实战演练

第六章(1.1)自然语言处理实战——TF-IDF算法原理

2019-01-13  本文已影响3人  _两只橙_

一、什么是TF-IDF

二、假设命题

三、解决思路

(1)如何定义关键词

****在一篇文章中出现次数多的词

****引入调整系数重新调整关键词权重

(2)算法细节

三、命题结论

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

TF-IDF算法

四、命题论证

image

从上表可见,"蜜蜂"的TF-IDF值最高,"养殖"其次,"中国"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"蜜蜂"就是这篇文章的关键词。

关注我的技术公众号,每天推送优质文章
关注我的音乐公众号,工作之余放松自己
微信扫一扫下方二维码即可关注:


音乐公众号
技术公众号
上一篇下一篇

猜你喜欢

热点阅读