jieba分词介绍

2019-04-17 本文已影响0人似水流年_yt

Python中分分词工具很多，包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同小异，这里先了解一下结巴分词

一.安装

pip install jieba

jieba -v

二、分词模式

结巴中文分词支持的三种分词模式包括：

(1) 精确模式：试图将句子最精确地切开，适合文本分析；

(2) 全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义问题；

(3) 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

分词模式

三.新词识别

新词识别

四.自定义词典

自定义词典

可以看到，结巴分词工具认出了专有名词”太和殿”，但没有认出”乾清宫”和”黄琉璃瓦”。也就是说，专有名词”乾清宫”和”黄琉璃瓦”可能因分词而分开，这也是很多分词工具的一个缺陷。为此，Jieba分词支持开发者使用自定定义的词典，以便包含jieba词库里没有的词语。虽然结巴有新词识别能力，但自行添加新词可以保证更高的正确率，尤其是专有名词。

自定义词典

词典格式和dict.txt一样，一个词占一行；每一行分三部分，第一部分为词语，中间部分为词频，最后部分为词性（可省略，ns为地点名词），用空格隔开。

咱们在jieba的安装目录下添加mydict.txt，内容为

自定义词典

更新代码，主要是添加加载mydict.txt的代码：

mydict

五.去除停用词

在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，比如“的”、“是”、“而且”、“但是”、”非常“等。这些字或词即被称为Stop Words（停用词）。

stopword

jieba分词介绍

猜你喜欢

热点阅读