jieba 分词原理

2021-05-17  本文已影响0人  dreampai

基本原理

  1. 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);
    用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之前版本的trie树存储词库,想想也是,python中实现的trie树是基于dict类型的数据结构而且dict中又嵌套dict 类型,这样嵌套很深,导致内存耗费严重
  2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;
  3. 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

参考链接

上一篇 下一篇

猜你喜欢

热点阅读