通过google-diff-match-patch算法,判断文本

2017-06-24  本文已影响0人  LiChangBao

一、实现思路

为了能够判断最新从网站上抓取的新闻是否已经存在于本地数据库,需要拿最新抓取的新闻和数据库中的新闻逐条进行比对得出相似度最大的一个值,后期可以通过设定相应的阀值来让系统判断假如相似度为80%就认为数据库中已经存在了目前将要插入数据库的新闻,禁止再次放入数据库从而达到去重的目的。

二、具体实现

本项目新闻去重采用的是谷歌公司的google-diff-match-patch算法来计算两条新闻的相似度。(原理说明:使用两条待比较的内容中的一条为模板,把另一条向作为模板的一条进行复原,统计出复原的步数,再计算出复原成模板最坏情况下的步数,用最坏情况下复原成模板的步数减去实际复原所用的步数再除以最坏情况下的步数即为两个带比较文本的相似度。)

核心代码如下:

上一篇下一篇

猜你喜欢

热点阅读