Python jieba 中文分词基本用法

2018-10-11 本文已影响0人 zestloveheart

安装

自动安装 pip install jieba / pip3 install jieba
手动安装 github/jieba下载源码，将 jieba 目录放于当前目录或者 site-packages 目录
通过 import jieba 引用

分词

cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence：待分词字符串
# cut_all：全模式开启
# HMM：使用HMM，会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词，会把keyword都列出来

使用

seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list))

自定义词典

准备词典，

文件名：dict_test.txt
内容：词语 词频（可略） 词性（可略），每个词一行
看维达 10

载入词典 jieba.load_userdict("dict_test.txt")

动态调整

新增词汇 add_word(word, freq=None, tag=None)
删除词汇 del_word(word)
词频调整

suggest_freq(segment, tune=True)
jieba.suggest_freq(('中', '将'), True) # 增加分开的概率
jieba.suggest_freq('台中', True) # 增加合并的概率

词性标注

import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
    print(f"{word} {flag}")

Python jieba 中文分词基本用法

安装

分词

自定义词典

词性标注

停用词

关键词提取

并行计算

参考文献

猜你喜欢

热点阅读

Python jieba 中文分词 基本用法

安装

分词

自定义词典

词性标注

停用词

关键词提取

并行计算

参考文献

猜你喜欢

热点阅读

Python jieba 中文分词基本用法