词袋和DBoW2库

2019-07-26  本文已影响0人  liampayne_66d0

词袋模型

以文本为例,一篇文章可能有一万个词,其中可能只有500个不同的单词,每个词出现的次数各不相同。词袋就像一个个袋子,每个袋子里装着同样的词。这构成了一种文本的表示方式。这种表示方式不考虑文法以及词的顺序。度量袋词的相似度 就可以度量两篇文章的相似度(余弦相似度)

回环检测

上一篇 下一篇

猜你喜欢

热点阅读