Python之jieba库使用自建字典库

2019-12-17  本文已影响0人  边牧哥哥sos
一、自建分词字典的原因

有时候我们在使用jieba库分词的时候,分词给我们的结果并不是我们需要的准确的结果,如:充电宝变成了充电,所以我们需要建立自己的分词字典库并且“训练”它。

二、创建并使用自建分词字典

1.准备字典库
创建一个字典库文档dict.txt,在该文档中加入自己的分词,分词格式为:
每个词占据一行
每行分三部分:词语、词频(可省略)、词性(可省略
文件编码方式必须为:utf-8
2.分此前添加加载代码
添加代码jieba.load_userdict("dict.txt")进行加载分词词典,举例如下:

import jieba
jieba.load_userdict("dict.txt")
words = jieba.lcut("这是小米充电宝")
print(words)

3.分词对比
未添加自建字典库如下图:

1.png
添加自建字典库如下图:
2.png
上一篇下一篇

猜你喜欢

热点阅读