jieba分词的安装与使用

2020-06-02  本文已影响0人  呆萌的我爱丽丝

Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。

Anaconda创建环境:

//下面是创建python=3.6版本的环境,取名叫py36

conda create -n py36 python=3.6 

Windows中使用conda activate激活环境

在Python里安装Jieba中文分词组件

1)下载Jieba

官网地址:http://pypi.python.org/pypi/jieba/

个人地址:http://download.csdn.net/detail/sanqima/9470715

2)将其解压到D:\TDDownload,如图(1)所示:

点击电脑桌面的左下角的【开始】—》运行 —》输入: cmd —》切换到Jieba所在的目录,比如,D:\TDDownload\Jieba,依次使用如下命令:

C:\Users\Administrator>D:

D:\>cd D:\TDDownload\jieba-0.35

D:\TDDownload\jieba-0.35>python setup.py install

01 Jieba的三种分词模式

Jieba提供了三种分词模式:

精确模式:试图将句子最精确地切开,适合文本分析。

全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

下面是使用这三种模式的对比。

import jieba

sent = '中文分词是文本处理不可或缺的一步!'

seg_list = jieba.cut(sent, cut_all=True)

print('全模式:', '/ '.join(seg_list))

seg_list = jieba.cut(sent, cut_all=False)

print('精确模式:', '/ '.join(seg_list))

seg_list = jieba.cut(sent)

print('默认精确模式:', '/ '.join(seg_list))

seg_list = jieba.cut_for_search(sent)

print('搜索引擎模式', '/ '.join(seg_list))

运行结果如下:

全模式:

中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//

精确模式:

中文/分词/是/文本处理/不可或缺/的/一步/!

默认精确模式:

中文/分词/是/文本处理/不可或缺/的/一步/!

搜索引擎模式:

中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/!

可以看到,全模式和搜索引擎模式下,Jieba将会把分词的所有可能都打印出来。一般直接使用精确模式即可,但是在某些模糊匹配场景下,使用全模式或搜索引擎模式更适合。

https://blog.csdn.net/zw0Pi8G5C1x/article/details/88706653

https://blog.csdn.net/sanqima/article/details/50965439

https://blog.csdn.net/sinat_37676560/article/details/90794659

上一篇下一篇

猜你喜欢

热点阅读