二进制浮点数表示

2019-08-03  本文已影响0人  dyyy_li

分享这篇笔记的目的是想驱动自己多动手,多动脑,开放自己,认识别人。如有问题,请指正。

从整数到小数

先回忆下如何用二进制表示十进制整数。例如,5 = 1×2^2 +0×2^1 +1×2^0 = (101)B
以此类推,
5.3 = 1×2^2+0×2^1+1×2^0+1×2 ^{-1}+1×2^{-2} = (101.11)B
这样的表示方法,会被我们理所应当地想到。但是这样表示小数存在不足

存在的问题

  1. 能精确表示的小数有限,只能表示 被x×2^y表示的数字。如1/3、 1/5等无法被上述方式表示。
  2. 在定长位数下(float是32位),不能同时表示极大数和及其接近0的数。(ps,如果小数点不定位置,那么要描述小数点位置又需要额外的位数,更加浪费空间)。

IEEE标准表示浮点数

要解决的问题:在给定区间内,整数有限个,但实数无限个
基本矛盾:有限个二进制位去表示无限多的实数
表示:使用类似科学计数法方式表示。
本文只谈float32类型情况下。

表示公式

V=(-1)^S+F×2^E
这样的表示小数点是浮动的,所以称为浮点数。(相对的,小数点确定的叫做定点数,整数也是一种定点数)
S:标志位(1位),大家都懂
E:阶码(8位),作用是对浮点数加权
F:尾数(23位),这个数有些特别,它的取值范围[1,2)或[0,1),俩个取值范围跟E的取值相关,后文详细解释。

来源 深入理解计算机系统v3

阶码E 和 尾数F 的取值

阶码状态 尾数状态 值的表示 备注
E∈(0,255) 任意 1+\frac{F}{2^{-23}}×2^{E-127} 规格化
E=0 任意 \frac{F}{2^{-23}}×2^{E-126} 非规格化
E=255 0 无穷大、小
E=255 ≠0 NaN

1.规格化情况

阶码E的二进制位既不全是0,也不全是1。
因为E∈(0,255)的,E-127 刚好平分E的值域。这样,E既可以表示正指数,也可表示副指数。
尾数F的值域[1,2)

2. 非规格化情况

阶码E的二进制位全0
尾数F的值域[0,1)

阶码E和尾数F的含义

这样的表示公式是非常反直觉的,为什么要将非规格化情况单独提出,这驱使我探究其中含义。

阶码E

先定义阶数组。根据E取值不同,2^{E-127}的值可以组成的数组是阶数组,阶数组可见下表

阶数组元素 元素值
A[0] 2^{-126}
A[1] 2^{-126}
A[2] 2^{-125}
A[3] 2^{-124}
…… ……
A[127] 2^{0}
A[128] 2^{1}
…… ……
A[253] 2^{126}
A[254] 2^{127}
A[255]

阶码E就是阶数组的序号(数组下标)
阶数组元素算出后,每个阶的值域也我们自然能算出。

阶数组元素 元素值 表示范围 精度
A[0] 2^{-126} [0,2^{-126}) 2^{-149}
A[1] 2^{-126} [2^{-126},2^{-125}) 2^{-149}
A[2] 2^{-125} [2^{-125},2^{-124}) 2^{-148}
A[3] 2^{-124} [2^{-124},2^{-123}) 2^{-147}
…… …… …… ……
A[127] 2^{0} [2^{0},2^{1}) 2^{-23}
A[128] 2^{1} [2^{1},2^{2}) 2^{-22}
…… …… …… ……
A[150] 2^{23} [2^{23},2^{24}) 2^{0}=1
…… …… …… ……
A[254] 2^{127} [2^{127},2^{128}) 2^{104}
A[255] [0,2^{-126}) -

这样的表示,就将整个实数域都囊括了。非规格化情况(A[0]阶),巧妙地填充了0附近的空白。

尾数F

尾数F理解成一个分数的分子,分母是2^23,分数的“1”是E阶的值域。打个比方,一条线段的长度为A[E],平均分成2^23段,取其前F段。

计算出浮点数的阶号E和尾数F

计算F时,采用二分法。
下面以 N=25f 进行举例

1.找到N的阶码

2^k <= N < 2^{k+1}
2^4 <= N < 2^{5}
阶码E= k+127 = 131=1000 0011

2.二分法找尾数F

判断 Y or N F从右向左的二进制占位
IF 25 >=24 Y 1
IF 25 >=28 N 10
IF 25 >=26 N 100
IF 25 >=25 Y 1001

解释一下,阶区间[24,25),中位数的十进制表示是24,25>24,判断为真,F的最高位填1。
剩余区间中位数28,25<28,判断为假,F的下一位填0。依次类推,最终F为1001时。
所以最终25f的二进制表示为:
高16位:0 1000 0011 1001 000
低16位:0000 0000 0000 0000
十六进制表示:41 C8 00 00

浮点数表示带来的精度问题

  1. python中: 0.3+0.6=0.899999

  2. 32位浮点数,超过2的24次方之后,精度大于1,运算 准确性不如整数。

    2,000,000,000f+1f = 2,000,000,000f

解决方法:Kahan Summation算法

上一篇下一篇

猜你喜欢

热点阅读