自然语言处理学习笔记

学习笔记-数据预处理

2020-04-06  本文已影响0人  Pluto_wl

看到一篇数据预处理很全面的文章,所以将链接贴了过来 https://www.jianshu.com/p/37e529c8baa9

对上述文章的补充

  1. 词标准化的方式
    词标准化
  2. 分词方式
  1. 拼写纠错
    计算出错词与词标中编辑距离最近的单词,这个单词就是正确的词。

利用编辑距离拼写纠错流程:
(1) 判断是否是措词: 当前词在vocab中没有出现,那么当前词就是拼写错误
(2) 生成候选词: 对错词生成编辑距离为1到k的词,然后将生成的词与vocab比较,若生成的词在vocab中就保留,若不在就说明当前词是错词,直接删除。


1

(3) 利用噪声信道模型来选取候选词
流程如下图所示:

2.png
具体可以参考https://zhuanlan.zhihu.com/p/58357300

参考文献:

  1. 噪声信道迷信 (推荐)
  2. 拼写纠错实现 (推荐)
上一篇下一篇

猜你喜欢

热点阅读