中文和汉字

从中文分词开始

2013-11-05  本文已影响198人  谢子德

如果 中文 词语 之间 也 用 空格 分开,会不会 理解 起来 更好 更快 呢?对于 机器 来说 肯定 是的?

机器在识别像中文这样的自然语言时,第一步就是分词。然后根据每个词意思来理解整句。

那么人脑理解中文时是不是也要先分词呢,理解英文这样自带分词的语言时呢,跳过分词这个步骤了?那么中文母语者和英文母语者的大脑处理语言的过程就不一样了。

人脑可能会有一个语言库,里面会分级,比如有句子库、词库、字库,偏旁部首库,笔画库。常用的句子会有一个直接匹配,直接整句被解码。如果整句没有准确匹配或者模糊匹配,可能会分词,然后到词库一级去匹配,这一级也匹配不到,那么可能是一个新词,再到字库里去匹配,再分析这个新词可能是什么含义。

英文对应的会有句库,词库,词根词缀库,字母库。这样与中文对比是不是少了一级,中文的笔画对应英文字母,中文偏旁部首对应英文的词根词缀,中文的字和词是对应英文的词。(补:英文还有词组,但是中文的词不能对应。)

会不会使用中文的人,句库的句子数量要高于英文使用者。因为对于整句匹配来说,英文中分词的空格就是无意义的,但是占用了空间,中文的空间效率要高。但是中文整句匹配不成功时,要进行分词,英文不用,此时英文的时间效率又高。

机器做自然语言处理时,也需要对应的语料库。并且,如果机器的存储能力高于人类,以至于大部分语言内容都可以在句库一级直接匹配,以大数据的逻辑,是不是机器的理解能力会超过人类呢。这其中可能也会有空间换时间的问题,但是机器最起码可能会赶上人类。

还有一个关键的问题是创造力。即便机器储存一个比人脑更全的句库,如果没有创造力的话还是无法与人类匹敌。

创造本身是有逻辑的,还是偶然的呢?还是逻辑与偶然结合的呢?

有的人可能会相信直觉,认为那是灵机一动,来自于灵感,而不是来自于外部刺激与内部经验的结合。

一个理性的人,会认为创造力是有逻辑可寻的,是有原因的。受别人的影响而不自知,却当成是自己的灵感,是很愚蠢的事。这世界上根本就不存在灵感这回事。

这到底是不是一个因果逻辑的世界,是不是所有的事情都有其原因呢?

还是说,宏观上是一个逻辑的世界,微观上都是偶然的。又或者,微观上是有原因可寻的,宏观上是偶然的。

再或,是逻辑与偶然的结合。

上一篇下一篇

猜你喜欢

热点阅读