中文分词库——jieba

2018-11-09 本文已影响0人 libdream

jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能。

jieba库的安装和使用很简单

pip install jieba #安装

import jieba #引用

jieba库支持三种分词模式：

1 精确模式：将句子最精确的切开，适合文本分析。

2 全模式：把句子中所有成词的词语都扫描出来，速度非常快，但不能解决歧义。

3 搜索引擎模式：在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

jieba库的主要函数如下：

jieba.lcut(s) #精确模式，返回一个列表类型

jieba.lcut(s, cut_all=True) #全模式，返回一个列表类型

jieba.lcut_for_search(s) #搜索引擎模式，返回一个列表类型

jieba.add_word(w) #向分词词典中增加新词w

使用范例如下：