Python jieba 中文分词 基本用法
2018-10-11 本文已影响0人
zestloveheart
安装
- 自动安装 pip install jieba / pip3 install jieba
- 手动安装 github/jieba下载源码,将 jieba 目录放于当前目录或者 site-packages 目录
- 通过 import jieba 引用
分词
- api
cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence:待分词字符串
# cut_all:全模式开启
# HMM:使用HMM,会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True) # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词,会把keyword都列出来
- 使用
seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list))
自定义词典
- 准备词典,
文件名:dict_test.txt 内容:词语 词频(可略) 词性(可略),每个词一行 看维达 10
- 载入词典
jieba.load_userdict("dict_test.txt")
- 动态调整
- 新增词汇
add_word(word, freq=None, tag=None)
- 删除词汇
del_word(word)
- 词频调整
suggest_freq(segment, tune=True) jieba.suggest_freq(('中', '将'), True) # 增加分开的概率 jieba.suggest_freq('台中', True) # 增加合并的概率
- 新增词汇
词性标注
import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
print(f"{word} {flag}")