文本相似

2020-01-11  本文已影响0人  Ary_zz

2020-01-10

杰卡德系数

image.png

1 - J(A,B)则被称为杰卡德距离,越大表明两个集合的相似度越小。

TF-IDF + 余弦相似性

词袋模型和LSI模型

词袋
根据语料集,把所有的词都提取出来,编上序号,假设我们的语料集里有100个词,那么每个文章就是一个100维的向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。

LSI
每篇文本中有多个概率分布不同的主题,每个主题中都包含所有已知词,但是这些词在不同主题中的概率分布不同,LSI通过奇异值分解的方法,计算文本中的各个主题的概率分布。这样做的好处是,我们的向量从词的维度下降到文本的主题的维度,维度更少,计算更快。

上一篇 下一篇

猜你喜欢

热点阅读