进位制、抽象模型与表现形式
很多人认为编程很难,其中一个原因是没有掌握两个重要的基础概念:一是进位制;二是抽象模型与表现形式的区分。
如果说第一个概念与编程的关系非常紧密,那么第二个概念不仅对学习编程很重要,对于我们日常生活中,能短时间内看清一件事物的本质也很重要,第二个概念可以看做是一种需求分析的思维模式。下面先说说第一点:进位制。
1. 进位制
进位制是一种记数方式,利用这种记数方式,可以使用有限的符号来表示无限的数值。

最常用的是十进制,十进制一共有 10 个符号:0,1,2,3,4,5,6,7,8,9。我们把 10 叫做基数,也就是逢 10 进一,例如比 9 大 1 的我们就写成 10,向左(向前)进了一位。十进制有 10 个状态,每一个单独的状态都有一个独立的符号来表示。如果一个数值超过 10 个状态,就向前进一位,这样就能表示无限的数值。是不是所有的进位制每一种状态都有自己单独的符号表示呢?答案是否定的。
我们来看看六十进制,六十进制有 60 个状态,但是并没有自己独立的符号体系。我们往往借助十进制的符号体系来描述这个概念,0,1,2,...,58,59。可以看到,某个状态使用了两个符号来描述,造成的后果就是没办法在符号体系中表达“逢 60 进一”这个概念了。要表达超过 60 的数值怎么办?一种方法就是继续用十进制来表达,没有“逢 60 进一”这个概念,如果想看看进了多少位,每次需要计算一下,例如:2531,需要除以 60,计算结果商是 42,余数是 11,我们就知道一共进位了 42 次,剩余 11。另一种方法就是引入现实生活中的概念,这种进位制往往跟我们的现实生活紧密结合。60 进制最常用于描述时间,如果把数值与秒接合在一起,我们就可以把 2531 描述为 42 分钟 11 秒。
前面对 60 进制的说明实际上引入了三个概念:A、是“60 进制”;B、是“描述(或书写) 60 进制的符号体系”;C、是“60 进制用在什么地方”。如果想写好一个程序,必须能把这三个概念完整的拆分开,同时又能找到接合点。因为一个程序往往由需求推动(概念 C),用户会直接说明想达到什么效果,系统分析员或程序员分析出模型(概念 A),再把模型用适当的方式作用于某个指定地方,即用某种形式表现出来,例如显示在屏幕上、手机振动或机器产生切割的动作等等(概念 B)。
十六进制 ,十六进制也是编程中常用的进位制(最常用的是二进制)。十六进制每一个状态都有单独的符号表示:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F。所以十六进制是能够准确的表达“逢 16 进一”的。例如十六进制体系中的 10 表示十进制中的 16 这个数值(逢 16 进一,因为 F 为 15,15 加 1 再也找不到符号表示了,所以进一位,就是 10),E5 表示十进制中的 229 这个数值。由于十六进制的符号体系前 10 个与十进制完全一样,为了不引起混淆,我们在书写十六进制的时候前面加 \x,例如 \x11 代表十进制的 17 这个值,\xFF 代表十进制的 255 这个值。
二进制,二进制当然有自己的符号体系,就是 0,1 两个符号。所以二进制中的 10 等于十进制中的 2。十六进制、十进制、二进制之间的转换关系如下:

计算机为什么采用二进制,而不是十进制?原因是十进制有 10 种状态,现实生活中找到具有稳定的 10 种状态的事物非常难,从一种状态跳跃到另一种状态,又不引起副作用就更难了。而二进制就容易多了,灯泡的开或关、通电或断电、电压的高或低、磁极的取向、表面的凹凸、光照的有无等等都可以表示二进制。实际就是简单可靠、低成本,另一个原因是二进制天然与逻辑判断是兼容的。
除了上面说的进位制还有没有别的进位制?有,而且还有很多,例如 8 进制、12 进制、1000 进制等等,我们也可以设计自己需要的进位制。
2. 抽象模型与表现形式
我们以会计凭证为例(不懂财务也没关系,你可以看作是收料单或出仓单之类的单据,之所以用会计凭证举例,是为了引入足够的复杂度)。如果你是一个不懂财务的程序员,用户会拿出一张纸质的会计凭证,告诉你这就是会计凭证。

在这里,我们必须意识到,这只是会计凭证的一种表现形式,无论是眼前这张纸,还是用户通过声音传播过来的会计凭证描述,都是表现形式的一种,我们必须通过归纳法提炼出一个完整的会计凭证的抽象概念,这个抽象概念就是会计凭证的抽象模型。
通过归纳法提炼出来的抽象模型一定是正确的吗?不一定,往往是不完整的,甚至是不完全正确的。例如刚开始你可能认为会计凭证的行项目只有两行:一借一贷,做到一半才发现允许多个行项目。不过没关系,我们已经有了一个抽象的模型,从这个抽象的模型就能演绎出会计凭证的另一种表现形式,也就是计算机中的二进制形式。
同一个抽象模型二进制形式往往不止一种,一定会有多种。例如在数据库中,会计凭证的表头和行项目会分别保存于至少两个数据表中;从数据库读取到内存中参与计算又是另一种表现形式;如果我们不用传统的数据库,直接一个凭证保存为一个文本文件也是可以的,这与在数据库中和内存中的表现形式又不相同。如果多个用户需要共享会计凭证,我们需要把会计凭证序列化(转化为字节流),这又是另一种会计凭证的不同的表现形式。当用户需要显示在屏幕上(以数字或文字),这种表现形式与前面的往往不同,甚至还有颜色和大小的要求。对于会计凭证这个抽象概念,前面已经给出了 5 种不同的表现形式,在实际的软件设计中,往往会多于 5 种,还不包括各种统计分析的报表。不过没关系,只要我们有了一个抽象模型,这些东西通通可以演绎出来。在这里可以看出,如果前面的抽象模型不完整或不正确,后面的修改工作量也非常大。

回到前面的进位制,当我们说二进制中的 11,实际上指的是十进制中的 3,它们在“整数”这个抽象概念上是同一个东西,只是两种不同的表现形式。
当我们通过归纳法抽象出一个模型,再使用演绎法推导出不同的表现形式,无论用户想把他们的程序运行在电脑上、手机上、还是其他各种各样的物联网设备上,都能把它们转化为机器能处理的二进制信号,运行于其上。