第一节:Jieba分词

2020-06-18  本文已影响0人  taon

在我们的日常工作与学习当中,最常用的两种语言就是汉语和英语了。在做文本分析的时候,第一步都是分词。在英语文章中,每个词都是天然的用空格分开的,所以我们就不讨论英语的分词了。在汉语分词中,我们最常用的就是jieba分词分词库了。jieba是一款开源的分词工具包,广泛应用于文本分析,词云绘制,关键词提取,自然语言处理等领域。

1.安装

pip install jieba

2.Jieba常用函数

#导入jieba分词工具包
import jieba

#随便创建一句话
words = '哈工大材料科学与工程学院焊接技术与工程专业的学生'

#精确模式切分
jieba.lcut(words)
#['哈工大', '材料科学', '与', '工程学院', '焊接', '技术', '与', '工程', '专业', '的', '学生']

#全模式切分
jieba.lcut(words,cut_all = True)
#['哈工大','工大','材料','材料科','材料科学','科学','与','工程','工程学','工程学院','学院','焊接',
# '技术','与','工程','专业','的','学生']

#搜索引擎模式切分
jieba.lcut_for_search(words)
#['工大','哈工大','材料','科学','材料科','材料科学','与','工程','学院','工程学','工程学院','焊接',
# '技术','与','工程','专业','的','学生']

#我们也可以向jieba添加新的词语
jieba.add_word('材料科学与工程学院')
jieba.add_word('焊接技术与工程专业')

#再使用jieba的精确模式对词语进行切分
jieba.lcut(words)
#['哈工大', '材料科学与工程学院', '焊接技术与工程专业', '的', '学生']
上一篇下一篇

猜你喜欢

热点阅读