学习笔记-数据预处理
2020-04-06 本文已影响0人
Pluto_wl
看到一篇数据预处理很全面的文章,所以将链接贴了过来 https://www.jianshu.com/p/37e529c8baa9
对上述文章的补充
-
词标准化的方式
词标准化 - 分词方式
-
最大匹配算法
前向最大匹配算法:
前向最大匹配算法
后向最大匹配算法:
后向最大匹配算法 -
基于语言模型的分词方法
1
2
在进行计算时,会对类乘取log,将类乘转化为log累加,可以避免数值过小
3
-
拼写纠错
计算出错词与词标中编辑距离最近的单词,这个单词就是正确的词。
利用编辑距离拼写纠错流程:
(1) 判断是否是措词: 当前词在vocab中没有出现,那么当前词就是拼写错误
(2) 生成候选词: 对错词生成编辑距离为1到k的词,然后将生成的词与vocab比较,若生成的词在vocab中就保留,若不在就说明当前词是错词,直接删除。
1
(3) 利用噪声信道模型来选取候选词
流程如下图所示:
具体可以参考https://zhuanlan.zhihu.com/p/58357300
参考文献: