自然语言处理——7.3 汉语自动分词概要
汉语自动分词的重要性
- 自动分词是汉语句子分析的基础
- 词语的分析具有广泛的应用(词频统计,词典编纂,文章风格研究等)
- 文献处理以词语为文本特征
- “以词定字、以词定音”,用于文本校对、同音字识别、多音字辨识、简繁体转换
汉语自动分词中的主要问题
1. 汉语分词规范问题(《信息处理用限定汉语分词规范(GB13715)》)
- 汉语中什么是词?两个不清的界限:
(1) 单字词与词素,如:新华社25日讯
(2) 词与短语,如:花草,湖边,房顶,鸭蛋,小鸟,担水,一层,翻过?
2. 歧义切分字段处理
2.1 交集型歧义
- 定义:链长
一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。
“结合”、“合成”、“成分”和“分子”均构成词,交集串的集合为{合,成,分},因此,链长为3。
2.2 组合型歧义
梁南元(1987)曾经对一个含有48,092字的自然科学、社会科学样本进行了统计,结果交集型切分歧义有518个,多义组合型切分歧义有42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。
3. 未登录词的识别
3.1 人名、地名、组织机构名等,例如:
盛中国,张建国,李爱国,蔡国庆,令计划;高升,高山,夏天,温馨,武夷山,时光;彭太发生,朱李月华;赛福鼎· 艾则孜,爱新觉罗· 溥仪;平川三太郎,约翰· 斯特朗
3.2 新出现的词汇、术语、个别俗语等,例如:
博客,非典,禽流感,恶搞,微信,给力,失联
汉语自动分词的基本原则
1. 语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)
例如:不管三七二十一(成语),或多或少(副词片语),十三点(定量结构),六月(定名结构),谈谈(重叠结构,表示尝试),辛辛苦苦(重叠结
构,加强程度),进出口(合并结构)
2. 语类无法由组合成分直接得到的字串应该合并为一个分词单位。(合并原则)
(1)字串的语法功能不符合组合规律,如:好吃,好喝,好听,好看等
(2)字串的内部结构不符合语法规律,如:游水等
汉语自动分词的辅助原则
操作性原则,富于弹性,不是绝对的。
1. 有明显分隔符标记的应该切分之 (切分原则)
分隔标记指标点符号或一个词。
如: 上、下课 一> 上/ 下课
洗了个澡 一> 洗/ 了/ 个/ 澡
2. 附着性语(词)素和前后词合并为一个分词单位(合并原则)
例如:
“吝”是一个附着语素,“不吝”、“吝于”等合并成一个词;
“员”:检查员、邮递员、技术员等;
“化”:现代化、合理化、多变化、民营化等。
3. 使用频率高或共现率高的字串尽量合并为一个分词单位(合并原则)
如:“进出”、“收放”(动词并列);“大笑”、“改称”(动词偏正);“关门”、“洗衣”、“卸货”(动宾结构);“春夏秋冬”、“轻重 缓急”、“男女”(并列结构);“象牙”(名 词偏正);“暂不”、“毫不”、“不再”、“早已”(副词并列)等
4. 双音节加单音节的偏正式名词尽量合并为一个分词单位(合并原则)
如:“线、权、车、点”等所构成的偏正式名词:“国际线、分数线、贫困线”、“领导权、发言权、知情权”、“垃圾车、交通车、午餐车”、“立足
点、共同点、着眼点”等。
5. 双音节结构的偏正式动词应尽量合并为一个分词单位(合并原则)
本原则只适合少数偏正式动词,如:“紧追其后”、“组建完成”等,不适合动宾及主谓式复合动词。
6. 内部结构复杂、合并起来过于冗长的词尽量切分(切分原则)
(1) 词组带接尾词
太空/ 计划/ 室、塑料/ 制品/ 业
(2) 动词带双音节结果补语
看/ 清楚、讨论/ 完毕
(3) 复杂结构:自来水/ 公司、中文/ 分词/ 规范/ 研
究/ 计划
(4) 正反问句:喜欢/ 不/ 喜欢、参加/ 不/ 参加
(5) 动宾结构、述补结构的动词带词缀时
写信/ 给、取出/ 给、穿衣/ 去
(6) 词组或句子的专名,多见于书面语,戏剧名、歌曲名等
鲸鱼/ 的/ 生/ 与/ 死、那/ 一/ 年/ 我们/都/ 很/ 酷
(7)专名带普通名词
胡/ 先生、京沪/ 铁路