Python jieba 中文分词 基本用法

2018-10-11  本文已影响0人  zestloveheart

安装

分词

cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence:待分词字符串
# cut_all:全模式开启
# HMM:使用HMM,会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词,会把keyword都列出来
seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list)) 

自定义词典

词性标注

import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
    print(f"{word} {flag}")

停用词

python 生成词云图

关键词提取

并行计算

参考文献

  1. github jieba
上一篇下一篇

猜你喜欢

热点阅读