jieba分词的安装与使用

2020-06-02 本文已影响0人呆萌的我爱丽丝

Jieba是一个中文分词组件，可用于中文句子/词性分割、词性标注、未登录词识别，支持用户词典等功能。该组件的分词精度达到了97%以上。

Anaconda创建环境：

//下面是创建python=3.6版本的环境，取名叫py36

conda create -n py36 python=3.6

Windows中使用conda activate激活环境

在Python里安装Jieba中文分词组件

1）下载Jieba

2）将其解压到D:\TDDownload,如图(1)所示：

点击电脑桌面的左下角的【开始】—》运行 —》输入: cmd —》切换到Jieba所在的目录，比如,D:\TDDownload\Jieba，依次使用如下命令：

C:\Users\Administrator>D:

D:\>cd D:\TDDownload\jieba-0.35

D:\TDDownload\jieba-0.35>python setup.py install

01 Jieba的三种分词模式

Jieba提供了三种分词模式：

精确模式：试图将句子最精确地切开，适合文本分析。

全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

下面是使用这三种模式的对比。

import jieba

sent = '中文分词是文本处理不可或缺的一步!'

seg_list = jieba.cut(sent, cut_all=True)

print('全模式：', '/ '.join(seg_list))

seg_list = jieba.cut(sent, cut_all=False)

print('精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut(sent)

print('默认精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut_for_search(sent)

print('搜索引擎模式', '/ '.join(seg_list))

运行结果如下：

全模式：

中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//

精确模式：

中文/分词/是/文本处理/不可或缺/的/一步/！

默认精确模式：

中文/分词/是/文本处理/不可或缺/的/一步/！

搜索引擎模式：

中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/！

可以看到，全模式和搜索引擎模式下，Jieba将会把分词的所有可能都打印出来。一般直接使用精确模式即可，但是在某些模糊匹配场景下，使用全模式或搜索引擎模式更适合。