分词词性标注之jieba
2018-03-29 本文已影响41人
yangOvOyang
jieba是中国人的做的python分词器。
jieba的安装
- windows环境下
pip install jieba
- Linux环境下
待补充
jieba的三种分词模式
- 精确模式:试图将句子最精确地切开,适合文本分析
- 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义
- 搜索引擎模式:在精确模式的基础上,对长词再进行划分,提高召回率,适合用于搜索引擎分词
import jieba
str = '诸葛夏天的子子孙孙都居住在这个小村子里。'
print('精确模式(默认):', ' '.join(jieba.cut(str)))
print('全模式:', ' '.join(jieba.cut(str, cut_all=True)))
print('搜索引擎模式:', ' '.join(jieba.cut_for_search(str)))

jieba的词性
先上词性表
词性 | 表示符号 |
---|---|
形容词 | a 形容词 ad 副形词 an 名形词 ag 形容词性语素 al 形容词性惯用语 |
区别词 | b 区别词 bl 区别词性惯用语 |
连词 | c 连词 cc 并列连词 |
副词 | d 副词 |
叹词 | e 叹词 |
方位词 | f 方位词 |
前缀 | h 前缀 |
后缀 | k 后缀 |
数词 | m 数词 mq 数量词 |
名词 | n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 nrf 音译人名 ns 地名 nsf 音译地名 nt 机构团体名 nz 其它专名 nl 名词性惯用语 ng 名词性语素 |
拟声词 | o 拟声词 |
介词 | p 介词 pba 介词“把” pbei 介词“被” |
量词 | q 量词 qv 动量词 qt 时量词 |
代词 | r 代词 rr 人称代词 rz 指示代词 rzt 时间指示代词 rzs 处所指示代词 rzv 谓词性指示代词 ry 疑问代词 ryt 时间疑问代词 rys 处所疑问代词 ryv 谓词性疑问代词 rg 代词性语素 |
处所词 | s 处所词 |
时间词 | t 时间词 tg 时间词性语素 |
助词 | u 助词 uzhe 着 ule 了 喽 uguo 过 ude1 的 底 ude2 地 ude3 得 usuo 所 udeng 等 等等 云云 uyy 一样 一般 似的 般 udh 的话 uls 来讲 来说 而言 说来 uzhi 之 ulian 连 (“连小学生都会”) |
动词 | v 动词 vd 副动词 vn 名动词 vshi 动词“是” vyou 动词“有” vf 趋向动词 vx 形式动词 vi 不及物动词(内动词) vl 动词性惯用语 vg 动词性语素 |
标点符号 | w 标点符号 wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { < wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { > wyz 左引号,全角:“ ‘ 『 wyy 右引号,全角:” ’ 』 wj 句号,全角:。 ww 问号,全角:? 半角:? wt 叹号,全角:! 半角:! wd 逗号,全角:, 半角:, wf 分号,全角:; 半角: ; wn 顿号,全角:、wm 冒号,全角:: 半角: : ws 省略号,全角:…… … wp 破折号,全角:—— -- ——- 半角:--- ---- wb 百分号千分号,全角:% ‰ 半角:% wh 单位符号,全角:¥ $ £ ° ℃ 半角:$ |
字符串 | x 字符串 xx 非语素字 xu 网址URL |
语气词 | y 语气词(delete yg) |
状态词 | z 状态词 |
获取词性
import jieba.posseg as psg
for x in psg.cut(str):
print(x.word, x.flag)

jieba的用户自定义字典
自定义字典只是将某些不确定的“可选的”词分在一起,但是并不能随心所欲地将某些词强制作为整体切开。
自行定义一个txt词典文件,按照一行“词名 词频 词性”格式。
# 新建一个dict.txt词典文件,里面添加“诸葛夏天”
jieba.load_userdict('dict.txt')
print('导入用户词典后的分词 ', ' '.join(jieba.cut(str)))
