自然语言处理——7.7 词性标注概述
2018-10-08 本文已影响39人
SpareNoEfforts
面临的问题
词性(part-of-speech, POS)标注(tagging)的主要任务是消除词性兼类歧义。在任何一种自然语言中,词性兼类问题都普遍存在。例如:
-
在英语中
(1) Time flies like an arrow.
(2) I want you to web our annual report.
对 Brown 语料库的统计,55%词次兼类。汉语中常用词兼类现象严重,《现代汉语八百词》兼类占 22.5%。 -
在汉语中
(1) 形同音不同,如:“好(hao3,形容词)、好(hao4,动词)”
这个人什么都好,就是好酗酒。
(2) 同形、同音,但意义毫不相干,如:“会(会议,名词)、会(能够、动词)”
每次他都会在会上制造点新闻。
(3) 具有典型意义的兼类词,如:“典型(名词或形容词)”、“教育(名词或动词)”
用那种方式教育孩子,简直是对教育事业的侮辱。
(4) 上述情况的组合,如:“行(xing2,动词/形容词;hang2,名词/量词)”
每当他走过那行白杨树时,他都感觉好像每一棵树都在向他行注目礼。
标注集的确定原则
不同语言中,词性划分基本上已经约定俗成。
自然语言处理中对词性标记要求相对细致。
-
一般原则:
· 标准性: 普遍使用和认可的分类标准和符号集;
· 兼容性: 与已有资源标记尽量一致,或可转换;
· 可扩展性:扩充或修改。
-
UPenn Treebank 的词性标注集确定原则:
• 可恢复性(recoverability):从标注语料能恢复原词汇或借助于句法信息能区分不同词类;
• 一致性(consistency):功能相同的词应该属于同一类;
• 不明确性(indeterminacy):为了避免标注者在不明确的条件下任意决定标注类型,允许标注者给出多个标记(限于一些特殊情况)。
-
UPenn Treebank 的词性标注集
• 33 类
• NN 名词、NR 专业名词、NT 时间名词、VA可做谓语的形容词、VC “是”、VE“有”作为主要动词、VV 其他动词、AD副词、M 量词,等等。 -
北大计算语言学研究所的词性标注集
• 26个基本词类代码,74个扩充代码,标记集中共有106个代码。
名词(n)、时间词(t)、处所词(s)、方位词(f)、数词(m)、量词(q)、区别词(b)、代词(r)、动词(v)、形容词(a)、状态词(z)、副词(d)、介词(p)、连词(c)、助词(u)、语气词(y)、叹词(e)、拟声词(o)、成语(i)、习用语(l)、简称(j)、前接成分(h)、后接成分(k)、语素(g)、非语素字(x)、标点符号(w)
。