NLP学习-04.基础-拼写错误纠正-编辑距离-过滤

2020-03-28 本文已影响0人 logi

上节简单学习了分词，这节主要学习拼写错误纠正

编辑距离(Minimum Edit Distance，MED)的定义

在信息论、语言学和计算机科学领域，Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个单词之间，由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数。

定义的单字符编辑操作有且仅有三种：

插入（Insertion）
删除（Deletion）
替换（Substitution）

计算编辑距离的例子

1.kitten → sitten (substitution of "s" for "k")
2.sitten → sittin (substitution of "i" for "e")
3.sittin → sitting (insertion of "g" at the end)

因此，"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。

如何纠错

我们不可能将一个正确词的所有不同编辑距离的情况生成, 但可以问题简化为生成距离为1或者2的单词(一般用户输错的词距离与真实词距离为2以内)

image.png

假设用户输入为s需要纠正为c,但是我们生成出来的词c有很多,我们需要找到概率最大的单词c作为矫正词.
这里我们使用了beyes定理进行了条件概率的转换. 简化了c的概率计算方式. (unigram)
$p(s|c)$ 表示实际的词是c, 但用户输入词s的统计概率.
$p(c)$ 表示正确词c的统计概率.