第四章 相似度分析算法——基于Jaccard相似系数的相似度计算

2019-10-22  本文已影响0人  文颜

4.2 基于Jaccard相似系数的相似度计算

Jaccard系数主要用于计算个体间的相似度,个体的特征属性可以通过符号度量或者布尔值标识,所以不能直接通过特征属性的差异进行直接计算,只能通过特征属性是否相似进行比较。

4.2.1 计算流程

(1)分词处理。

(2)将网页1内容对应的词语当作一个集合1,网页2内容对应的词语当作一个集合2……

(3)计算集合之间的交集、并集。

(4)计算交集数量于并集数量的比,其比值为网页之间的相似度衡量标准,该衡量标准的原理即称作Jaccard相似系数。

4.2.2 侠义Jaccard相似系数

4.2.2 广义Jaccard相似系数

上一篇下一篇

猜你喜欢

热点阅读