第四章 相似度分析算法——应用实例:海量网页相似度分析

2019-10-22  本文已影响0人  文颜

相似度算法是文本基本计算的基础。相似度计算用于帮助开发者发现数据关联性,也是一种基础性计算模型。其核心点在于两个方面:一方面是数据的特征表示,例如如何表示为一个有价值的向量;另一方面是集合之间关系的表示方法。

4.1 应用实例:海量网页相似度分析

判断网页的重复或相似是基于网页标题和网页综合进行分析的,为网页进行相似性分析的目的如下:

(1)防止重复(或被复制、转载)的网页被搜索到。

(2)网页价值分析,越是被转载或复制的网页,其重要性越高。

上一篇 下一篇

猜你喜欢

热点阅读