可变长度整数的编码

2017-09-25 本文已影响751人大蟒传奇

可变长度整数（以下简称为varint）压缩算法是将整数压缩成比通常需要的更小空间的一种方法。一个varint算法以用一个字节表示10，而用4个字节来表示8亿。

比如，在应用中，大多数的值都在0到100之间，而有些值可能会超过16384，如果使用固定长度的空间来表示这些值的话，就需要一个完整的32位整数，即使大多数值用单个字节来表示就够了。

正是因为在中大多数数字的分布并不均匀，varint算法才有了用武之地。通常情况下，较小的数字出现的概率大于较大的数字。varint算法作出的权衡是，用较小的空间存储小数字，而用较大的空间存储大数字。因此，采用这种算法来对整数进行编码是有意义的，它可以节省存储数据需要的空间或者传输数据时所需的带宽。

两种varint编码的常见方式是使用前缀长度和使用连续位标识。

连续位标识

Protobuf用的是连续位标识技术，使用每个字节的第一位来标识是否需要继续向后读。每个字节低7位用于实际的编码。

比如对于数字25，8位二进制为0001 1001。注意最左边一位是0，在Protobuf中，这意味着不需要继续向后读了。采用这样的技术，0到127之间的数字都可以用一个字节表示。

对于大于127的数，比如225，二进制为1110 0001，如果用7个bit进行编码，则得到两个分组000 0001和110 0001。对Protobuf来说，最不重要的分组首先出现，这意味着应该向低阶组添加一个连续位0 000 0001和1 110 0001。逆置分组后，得到1110 0001和0000 0001。这样就使用两个字节对225进行了编码。

解码的过程如下，先读一个字节，如果该字节的高位第一个bit为1，则继续读；如果为0，则停止。移除每个字节的第一个bit，逆置剩余的bit分组，重新组合后得到原始的数据。

还是以225为例。

读取到的字节为11100001和00000001。
移除首bit后得到11000001和0000001。
逆置后得到0000001和1100001。
得到11100001，即为225。

这个技术非常强大，它可以编码任意大小的数字。

前缀长度

UTF8编码采用了前缀来标识编码的长度。对于小于等于127（十六进制0x7F）的任何字符，UTF8采用一个字节表示。该字节的高一位bit为0，低7位为编码的值，这个值和ASCII码值一样。具体规则如下表

第一个字节	第二个字节	第三个字节	第四个字节	用于实际编码的bit数量	能表示的最大unicode值
0xxxxxxx				7	127
110xxxxx	10xxxxxx			11	2047
1110xxxx	10xxxxxx	10xxxxxx		16	65535
11110xxx	10xxxxxx	10xxxxxx	10xxxxxx	21	1114111

可变长度整数的编码

连续位标识

前缀长度

猜你喜欢

热点阅读