二进制浮点数表示
分享这篇笔记的目的是想驱动自己多动手,多动脑,开放自己,认识别人。如有问题,请指正。
从整数到小数
先回忆下如何用二进制表示十进制整数。例如,。
以此类推,
。
这样的表示方法,会被我们理所应当地想到。但是这样表示小数存在不足。
存在的问题
- 能精确表示的小数有限,只能表示 被表示的数字。如1/3、 1/5等无法被上述方式表示。
- 在定长位数下(float是32位),不能同时表示极大数和及其接近0的数。(ps,如果小数点不定位置,那么要描述小数点位置又需要额外的位数,更加浪费空间)。
IEEE标准表示浮点数
要解决的问题:在给定区间内,整数有限个,但实数无限个
基本矛盾:有限个二进制位去表示无限多的实数
表示:使用类似科学计数法方式表示。
本文只谈float32类型情况下。
表示公式
这样的表示小数点是浮动的,所以称为浮点数。(相对的,小数点确定的叫做定点数,整数也是一种定点数)
S:标志位(1位),大家都懂
E:阶码(8位),作用是对浮点数加权
F:尾数(23位),这个数有些特别,它的取值范围[1,2)或[0,1),俩个取值范围跟E的取值相关,后文详细解释。
阶码E 和 尾数F 的取值
阶码状态 | 尾数状态 | 值的表示 | 备注 |
---|---|---|---|
E∈(0,255) | 任意 | 规格化 | |
E=0 | 任意 | 非规格化 | |
E=255 | 0 | 无穷大、小 | |
E=255 | ≠0 | NaN |
1.规格化情况
阶码E的二进制位既不全是0,也不全是1。
因为E∈(0,255)的,E-127 刚好平分E的值域。这样,E既可以表示正指数,也可表示副指数。
尾数F的值域[1,2)
2. 非规格化情况
阶码E的二进制位全0
尾数F的值域[0,1)
阶码E和尾数F的含义
这样的表示公式是非常反直觉的,为什么要将非规格化情况单独提出,这驱使我探究其中含义。
阶码E
先定义阶数组。根据E取值不同,的值可以组成的数组是阶数组,阶数组可见下表
阶数组元素 | 元素值 |
---|---|
A[0] | |
A[1] | |
A[2] | |
A[3] | |
…… | …… |
A[127] | |
A[128] | |
…… | …… |
A[253] | |
A[254] | |
A[255] | ∞ |
阶码E就是阶数组的序号(数组下标)
阶数组元素算出后,每个阶的值域也我们自然能算出。
阶数组元素 | 元素值 | 表示范围 | 精度 |
---|---|---|---|
A[0] | |||
A[1] | |||
A[2] | |||
A[3] | |||
…… | …… | …… | …… |
A[127] | |||
A[128] | |||
…… | …… | …… | …… |
A[150] | |||
…… | …… | …… | …… |
A[254] | |||
A[255] | ∞ | - |
这样的表示,就将整个实数域都囊括了。非规格化情况(A[0]阶),巧妙地填充了0附近的空白。
尾数F
尾数F理解成一个分数的分子,分母是,分数的“1”是E阶的值域。打个比方,一条线段的长度为A[E],平均分成2^23段,取其前F段。
计算出浮点数的阶号E和尾数F
计算F时,采用二分法。
下面以 N=25f 进行举例
1.找到N的阶码
2.二分法找尾数F
判断 | Y or N | F从右向左的二进制占位 |
---|---|---|
IF 25 >=24 | Y | 1 |
IF 25 >=28 | N | 10 |
IF 25 >=26 | N | 100 |
IF 25 >=25 | Y | 1001 |
解释一下,阶区间[24,25),中位数的十进制表示是24,25>24,判断为真,F的最高位填1。
剩余区间中位数28,25<28,判断为假,F的下一位填0。依次类推,最终F为1001时。
所以最终25f的二进制表示为:
高16位:0 1000 0011 1001 000
低16位:0000 0000 0000 0000
十六进制表示:41 C8 00 00
浮点数表示带来的精度问题
-
python中: 0.3+0.6=0.899999
-
32位浮点数,超过2的24次方之后,精度大于1,运算 准确性不如整数。
2,000,000,000f+1f = 2,000,000,000f
解决方法:Kahan Summation算法