猫叔的python笔记

Jaro–Winkler算法原理和应用

2018-07-17  本文已影响119人  半路出家地coder

算法简介

The Jaro–Winkler distance (Winkler, 1990)是计算2个字符串之间相似度的一种算法。它是Jaro distance算法的变种。主要用于record linkage/数据连接(duplicate detection/重复记录)方面的领域,Jaro–Winkler distance最后得分越高说明相似度越大。Jaro–Winkler distance 是适合于串比如名字这样较短的字符之间计算相似度。0分表示没有任何相似度,1分则代表完全匹配。

算法定义

  1. The Jaro distance算法最后得分公式:
    d_j = \frac{1}{3}\left(\frac{m}{|s1|} + \frac{m}{|s2|} + \frac{m-t}{m} \right)
    其中:
  1. Match Window(匹配窗口)计算公式
    MW=\left(\frac{MAX(|s1|,|s2|)}{2}\right) - 1
    其中:
  1. 上述公式解释
  1. Jaro–Winkler distance算法公式
    Jaro-Winkler算法给予了起始部分就相同的字符串更高的分数,它定义了一个前缀范围p,对于要匹配的两个字符串,如果前缀部分有长度为L的部分字符串相同,则Jaro-Winkler Distance为:
    d_w = d_j + L * P(1 - d_J)
    其中:

例子

给出两个字符串 s1 MARTHA 和 s2 MARHTA、我们可以得出:

python 运行

  1. 安装lib
pip install jaro_winkler
  1. 程序运行
print(jaro.jaro_metric("MARTHA".decode("utf-8"),"MARHTA".decode("utf-8")))

优化

  1. 多进程
  2. pandas
上一篇 下一篇

猜你喜欢

热点阅读