自然语言处理中的分词算法实现

2019-06-03  本文已影响0人  Van_Tinker

最近实现的3种中文分词算法

基于最大匹配算法(基于词典)

  1. 最大前向匹配
  1. 最大后向匹配
  1. 双向最大向前匹配

小结:

基于最大匹配方法分词的效果取决于分词词典的大小与质量,分词的原则是尽量避免单个字的出现和尽可能少的分词数量。

基于HMM分词算法

隐马尔可夫模型的3个关键矩阵:初始概率矩阵、状态转移概率矩阵、发射概率矩阵。

基于n-gram语法模型分词算法

总结

算法比较
1、评测语料:微软评测语料,共3985个句子
2、性能比较

Algorithm Precision Recall F1-score Cost-Time
HMM 0.65 0.75 0.70 4.87
MaxForward 0.76 0.87 0.81 244.14
MaxBackward 0.76 0.87 0.81 280.61
MaxBiWard 0.76 0.87 0.81 443.23
MaxProbNgram 0.76 0.87 0.81 8.99
MaxBiwardNgram 0.74 0.86 0.80 3.96
上一篇 下一篇

猜你喜欢

热点阅读