中文分词库——jieba

2018-11-09  本文已影响0人  libdream

jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。

jieba库的安装和使用很简单

pip install jieba        #安装

import jieba            #引用

jieba库支持三种分词模式:

1 精确模式:将句子最精确的切开,适合文本分析。

2 全模式:把句子中所有成词的词语都扫描出来,速度非常快,但不能解决歧义。

3 搜索引擎模式: 在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

jieba库的主要函数如下:

jieba.lcut(s)        #精确模式,返回一个列表类型

jieba.lcut(s, cut_all=True)        #全模式,返回一个列表类型

jieba.lcut_for_search(s)        #搜索引擎模式,返回一个列表类型

jieba.add_word(w)                #向分词词典中增加新词w

使用范例如下:

上一篇下一篇

猜你喜欢

热点阅读