你的眼睛是如何识文断字的?
一下!
......
如果你已经看到这里,恭喜,就在此时此刻,你的大脑正在完成一项的壮举:阅读。
你会觉得很奇怪,阅读是一件多么平常的事情啊,怎么会说是壮举呢?
1.拷问上帝
迄今为止,人类发现最早的文字系统是美索不达米亚的苏美尔人发明的(象形文字),距今已有6000多年。而拼音文字发明的时间更短,只有3800年。
image(图片来源:《全球科技通史》吴军)
▲上图示意了一些词的演化过程。第二列是最初的象形文字,从它们的形状可以猜出其含义。经过大约1000多年的简化,形成了更抽象的早期楔形文字(第三列)。又经过大约1000年,楔形文字完全形成,成了一种拼音文字(第四列)。
但你应该知道,现代人类祖先大约是在1100万—900万年前从非洲古猿分化而来。从人类千万年的进化时间来看,文字形成的短短几千年就显得特别微不足道。
image(图片来源:《人类进化简史》伯纳德·伍德)
这就引发了一个极重要的问题:人脑为什么具备阅读的能力?
如果人类大脑中预先被安装了阅读程序,那为什么与我们有相同祖先的黑猩猩却无法识文断字?
如果人类的阅读能力是自然选择的结果,了解一点进化论的人都该知道,几千年对于进化来说时间太短了,人类没有充足的时间形成专门的阅读神经回路。
那我们到底是如何识文断字的呢?
不用去拷问上帝,上帝就算知道也不会告诉你。我们先从眼睛说起。
2.眼睛不是照相机
我们知道,在没有闪光灯的帮助下照相机在黑暗中是无法拍到物体的,人类的眼睛在阅读文字时也是一样,只有在文字反射的光子撞击视网膜时,才能看到文字。
但与照相机的感光元件不同的是,人的视网膜不是一个均质感受器。
很多人会有一种错觉,认为自己在阅读时是以一种固定的精确度看到整个文字内容,就好像数码相机以均匀的像素阵列拍下照片一样。
但我们的眼睛与照相机不一样,研究表明,人眼只对正落在注视中心的点有最精细的感知,而周围则越来越模糊(如下图)。
image image我们视网膜的中央地带有一个区域叫中央凹(Foveal),这才是视网膜中唯一拥有密集的、对光线高度敏感的、高分辨率的视觉细胞区域,而其他区域只具有较低的分辨率① 。
image(图片来源:维基百科https://en.wikipedia.org/wiki/Foveal)
也正是因为我们需要将文字放在视网膜的中央凹来进行阅读,在阅读时人的眼球需要不断地移动。
但是,人的目光又不是匀速不停地在书页上移动的,正相反,目光总是一小步一小步地移动,就像你现在阅读这段文字时一样,你的眼睛正在做着每秒4-5次的跳动,不断把信息带入你的中央凹,我们把眼睛这一特性称之为眼跳(Saccade)②。
比如我们在读一行文字的时候,眼睛从左至右依次进行跳动,来保证每个文字进入视网膜的中央凹,这样使得视觉神经可以将看到的文字传输到大脑皮层。
另外要记住一点,一切生理构造都有极限,我们的眼球也不例外。每秒4-5次的眼跳会大大限制我们阅读的速度,研究发现,我们每一次眼跳只能识别10-12个字母(表音文字),注视点左侧3-4个,右侧7-8个。即使优秀的阅读者,每分钟最多也只能阅读400-500个词。
读到这,聪明的你一定会反问我,如果保持眼睛不动,让每个字自动地出现在眼睛的注视中心,这样我们是不是就不用进行眼跳运动了?这样我们的阅读速度是不是可以突破极限?
问得好,科学家也发现了这个问题。有一种方法叫快速序列视觉呈现法(RSVP),通过这个方法的训练可以让人的阅读速度的3-4倍,也就是1600个词每分钟③。具体的方法也很简单:就是将文本中内容一个词一个词的呈现,让每个词都精准地落在注视点上,这就意味着我们不需要眼动。
image(Google play上有个叫GlanceReader的APP,就是利用RSVP方法提高帮助读者提高阅读速度的。)
3.人眼到底精准到什么程度?
弄明白了眼睛如何捕捉文字,现在我们在进一步深挖一层。
我们一定都在中国铁路12306的网站上抢过火车票,那网站上的验证体验一定让你感到心力交瘁。这一Part我们就从验证码说起。
image每个人都有这样的体验:注册或者登录某个应用或网站的时候,系统经常会让你识别验证码来判断你是否真的是个“人”。这些验证码大部分是由一串歪歪扭扭的字符组成的,并不容易辨别。
验证码的英文名是** CAPTCHA,这是个缩写,全称是:Completely Automated Public Turing test to tell Computers and Humans Apart,有点长,翻译过来的意思是:全自动区分计算机和人类的公开图灵测试**。这项技术出现在十八年前,目的是为了防止机器(程序)假扮成人,去占用原本为用户准备的资源④。比如,利用Python爬虫不断地模拟尝试登录以便破解账号密码,或者利用恶意代码在 BBS 中发布大量广告或诈骗内容。
这个技术看上去很简单,但却可以非常有效地识别人和机器,为什么呢?计算机科学发展至今已经相当成熟完备,为什么不能像人一样识别这几个简单的字母呢?
这就不得不说说人类视觉的恒常性(Constancy)特征。
来看下面这张图:
image发现了没有?
第一,无论字符大小如何,我们总能快速识别出;
第二,无论字符形态如何,我们也能识别出文字;
第三,无论字符在图片上的位置如何,我们亦能识别。
这就是视觉的恒常性,我们的视觉系统对字符的大小、形态和位置变化有很强的耐受性。但计算机却不能如此准确的识别图片中的字符,就比如上文中举例的验证码,计算机是把图片解析成极小的像素,通过二进制运算重新组合然后与编码库做比对从而判断字符。这种算法的误差极大,就算现今如日中天的人工智能也极大依赖对比库的数据量。而最关键的是,随着库中数据的增长,这种匹配所消耗的时间将是指数级增长的,而我们的大脑却可以实现类似的并行操作,一眼识别出字符。
【这里补充一下:Google 在几年前就发布了一个叫作 reCAPTCHA 的验证码解决方案,用户只需要简单点击一个“我不是机器人”的复选框就可以完成图灵测试,不再需要分辨歪歪扭扭的验证码。但reCAPTCHA的技术原理是通过收集用户环境和行为数据,综合分析、智能区分人和机器,而不是识别文字或图片。】
刚才我们弄清楚了,因为视觉恒常性的存在,人类识别字符的能力并不依赖于字符的外在表征。但另一方面的研究发现,字符与字符之间差异哪怕再小,也会被我们精确地识别并放大。这就是我们视觉的差异放大特征。
来看看这句话:
image我们可以非常轻松的识别出这句话中的“大”和“太”的区别,并马上从大脑中提取出两个字不同的意义和发音,虽然这两个字的差异只有几个像素而已。
你可能会说,这完全是两个字,我当然知道其中的差异啊。
对啊,你说的对,但我们的大脑到底是如何识别出这差异的呢?
这也是我们下面要探讨的问题。
4.阅读的时候需要读出声吗?
在中世纪的欧洲,阅读时发出声音是一种阅读习惯,大部分阅读者都必须像孩子读书时那样一边看书一边嘟囔着。这其中一部分原因是当时的单词都堆砌在一起并没有空格,但对于正在做无声阅读的你来说,一定会抛出一个疑问:
我们的大脑是直接把书面文字转化成语义?还是先转化成语音再转化成语义?
这第一个问题被科学家归纳为语音通路(Phonological Route),意思是在阅读时我们必须把单词读出来然后才能理解文字的的意义。而第二个问题被归纳为词汇通路(Lexical Route),即直接将字符转化成其意义。
我们来看下面这个极端的例子:
image上面这个小故事,只用到[shi]这一个发音,但这并不妨碍我们理解故事的意思。当你在阅读这个小故事的时候,你会发现有些字你是需要在大脑里停留一下,生成语音,而有些字并不需要生成语音甚至一扫而过就可以知道其含义。
研究表明,当单词(字符)很不常见,或是第一次看见时,我们会优先利用“语音通路”来进行加工;相反,当我们看到很常见的单词时,会采用词汇通路进行阅读加工,先识别单词并提取词义,然后再利用词义信息去提取它的发音。
更多的论证过程这里不展开,直接给出结论:
通过几十年的研究,科学界基本达成了共识,那就是对成人来说,人在阅读时语音通路和词汇通路都存在,并且可以同时运****作。流畅的阅读依赖于两条阅读通路间的密切合作,根据所读的词不同(认识的和不认识的、常见的与不常见的、规则的与不规则的)及阅读任务的不同(出声阅读还是文字理解),每一条通路所发挥的作用大小不同。
那问题又来了,这两条通路是如何发挥作用的呢?
5.小黄人的聚会
如果只讨论语音通路,其实很简单:只要将字符和相对应的读音一一关联起来并储存在大脑里就可以实现。
然而让人头疼的是,词汇通路的原理可没那么简单。因为,如果我们要直接识别数千个常见单词并提取词义,那大脑则需要更大存储,而最为关键的问题是:我们是通过什么原理从大脑中精确提取出相应的词义的?
首先,我们把大脑中存储词义的地方称为“心理词典”(Mental Lexicon)⑤。研究表明,每个人的心理词典可以包含大约50000-100000个词条(惊叹大脑的非凡容量),即使是普通人也只需要零点几秒的时间,就能从至少50000个词条里,找出眼睛所看到字符的含义⑥。
好了,下面我们来看看词汇通路到底是如何运作的。
我们可以先把心理词典生动的比作一个由成千上万个小黄人组成的聚会,他们围成巨大的半圆,每个小黄人代表一个独一无二的词条,并只对他们自己的词条有激烈反映,一听到自己的词条,小黄人就会大喊大叫,以便让所有的小黄人知道这是他的词条。
image当你在纸页上看到一个词,比如“太太”时,视觉神经将这个词传送这个聚会上,并在大屏幕上显示“太太”,以保证每个小黄人都能看到。这个时候所有的小黄人都会聚精会神地观察这个词条,看是不是自己的。那个是“太太”词条的小黄人会大声喊叫想让别人听见这是自己的,但是他的邻座“太大”词条的小黄人也会大叫,认为这个词条是自己的。但经过短暂的竞争之后,代表“太大”的小黄人放弃了,很明显,他的对手“太太”从字符笔画这一刺激中得到更强的支撑,叫声更大。到这里,这个字符就被识别出来了,并且可以进入系统后续的加工过程,比如提取发音。
在这个简单的比喻中,隐藏着阅读过程中神经系统工作方式的几个关键点:
第一,海量的并行加工。所有的小黄人同时工作,并不是像计算机那样按顺序逐个检查所有的词条。如果这个一过程是序列查找,那将是极度低效的,随着心理字典的容量变大,运行时间将快速提高。
第二,简单性。每个小黄人只完成一个基本任务,就是检查展示在大屏幕上的字符与自己的词条的匹配度,仅此而已。
第三,竞争与强化。小黄人彼此争夺代表正确字符的发言权,这种竞争过程会不断强化该小黄人遇到同一字符的话语权。
好了,以上对于词汇通路原理的解释,都是基于Oliver Selfridge在1959年提出的“鬼蜮”(Pandemonium)模型⑦。如果感兴趣,可以自己动手去查阅。
6.你的大脑比计算机更高级
最后,我们来总结下。
我们在阅读文字时,因为视觉的恒常性和差异放大特征让我们精准地识别字符(或单词),再通过眼跳运动不断将信息带入视网膜的中央凹,视觉神经再将信息通过语音通路、词汇通路或二者一起传送到大脑皮层。大脑再将关联相应的读音或者通过小黄人的聚会提取语义,从而实现词义的提取和认知。
最后的最后,来聊聊我们大脑的高级性。
现阶段,无论多么高科技的书面文字识别软件,程序的复杂度都会随着单词(字符)的变长或数量的增长而变慢。正因为计算机中信息的加工是序列化的,那么识别一个由6个字母组成的单词所需要的时间是一个由3个字母组成的单词的两倍。在任何一种序列化模型中,识别时间的增加与单词中字母的数量直接相关。但人脑却并不会因为单词变长而延长反应时间,甚至通过稍加练习可以更熟练的识别字符。这就是我们高级的大脑。
但我们必须纠正一个观念:人脑是可以无限制地适应环境、吸取文化,即大脑的可塑性是没有边界的。最前沿的认知科学已经慢慢开始证实,人脑的生理结构因为受到遗传的限制,不可能无限制地被利用,其可塑性也只是在一个范围内可以被接受。
用我的双眼来倾听逝者的诉说。——德克韦多
注释:
①:https://en.wikipedia.org/wiki/Foveal*
②:https://en.wikipedia.org/wiki/Saccade
③⑤⑥:Stanislas Dehaene《脑与阅读》
④:https://en.wikipedia.org/wiki/CAPTCHA
⑦:O. G. Selfridge. "Pandemonium: A paradigm for learning." In D. V. Blake and A. M. Uttley, editors, Proceedings of the Symposium on Mechanisation of Thought Processes, pages 511–529, London, 1959.*