(八)以太坊RLP编码解码原理详解
1、什么是RLP编码
-
RLP(Recursive Length Prefix),叫递归长度前缀编码,是一种编码规则,主要用来序列化/反序列化数据,可用于编码任意嵌套的二进制数组数据。
-
RLP编码是以太坊数据序列化的主要编码方式,以太坊中的所有对象都会使用RLP编码序列化为字节数组。
-
RLP编码把数据分成两类,一类是字符串(字节数组)(e.g. hello world),一类是列表(e.g. [“hello”,“world”]) ,其中列表可以包含字符串和列表。其他数据类型可以根据自己的规则转换成这两类,比如struct可以转换成列表。
2、RLP编码的规则
一、字符串(字节数组)
-
规则1: 对于值在[0, 127]之间的单个字节,其编码是其本身。
例: a 的ASCII码是97,97在上述范围,因此其RLP编码是 97 。
-
规则2: 如果byte数组⻓长度l <= 55,编码的结果是数组本身,再加上128+l作为 前缀。
例: abc, a b c 各自的ASCII码分别是97 98 99,因此其RLP编码亦是自身,而abc的长度为3,则前缀为128 + 3 = 131,因此abc的RLP编码结果就是131 97 98 99。
-
规则3: 如果数组长度大于55, 编码结果第一个是183加上字符串长度所占⽤的字节数,然后是数组长度的本身的编码,最后是byte数组的编码。
1、如下⾯这段字符串:
The length of this sentence is more than 55 bytes, I know it because I pre-designed it
这段字符串长度为86,86占用一个字节,因此编码前缀为 183 + 1 = 184;86在[0, 127]之间,因此编码结果的第二个是861;编码结果后面就是按照规则1进行的编码,最终编码结果为:184 86 84 104 101 32 108 101 110 103 116 104 32 111 102 32 116 104 105 115 32 115 101 110 116 101 110 99 101 32 105 115 32 109 111 114 101 32 116 104 97 110 32 53 53 32 98 121 116 101 115 44 32 73 32 107 110 111 119 32 105 116 32 98 101 99 97 117 115 101 32 73 32 112 114 101 45 100 101 115 105 103 110 101 100 32 105 116
2、如果长度超过了127呢?如1024个a组成的字符串。
由于长度1024占用2个字节,因此编码前缀为 183 + 2 = 185;
1024的二进制位0000 0100 0000 0000,拆分成2个字节就是0000 0100 和0000 0000,第一个字节的值为4,第二个字节的值为0,则编码前缀后面一次添加4和0,结果为185 4 0 97 97 97 97 97 97 ...。
二、列表
-
规则4: 如果列表长度小于55,列表的总长度指的是它包含的项的数量加它包含的各项的长度之和,编码结果第一位是192加列表总长度,然后依次连接各⼦列表的编码。
例:["abc", "def"],列表包含2项,每项包含3个子项,因此总长度为8,则编码前缀为192 + 8 = 200;abc的编码结果根据规则2可得出为131 97 98 99,def为131 100 101 102;则最终编码结果为200 131 97 98 99 131 100 101 102。
-
规则5: 如果列表长度超过55,编码结果第⼀位是247加列表长度的编码⻓度所占⽤的字节数,然后是列表长度本身的编码,最后依次连接各子列表的编码。
如:["The length of this sentence is more than 55 bytes, ", "I know it because I pre-designed it"]
列表总长度为2 + 86 = 88,88占用1个字节,则编码前缀为247 + 1 = 248,后面连接的是88,在后面是各项的编码,结果为:248 88 179 84 104 101 32 108 101 110 103 116 104 32 111 102 32 116 104 105 115 32 115 101 110 116 101 110 99 101 32 105 115 32 109 111 114 101 32 116 104 97 110 32 53 53 32 98 121 116 101 115 44 32 163 73 32 107 110 111 119 32 105 116 32 98 101 99 97 117 115 101 32 73 32 112 114 101 45 100 101 115 105 103 110 101 100 32 105 116
3、RLP解码
解码时,⾸先根据编码结果第一个字节f的⼤小,执⾏行行以下的规则判断:
- 如果f∈ [0,128), 那么它是一个字节本身。
- 如果f∈[128,184),那么它是一个⻓度不超过55的byte数组,数组的长度 为 l=f-128
- 如果f∈[184,192),那么它是一个⻓度超过55的数组,长度本身的编码长度l=f-183,然后从第二个字节开始读取⻓度为l的bytes,按照 BigEndian编码成整数l,l即为数组的长度。
- 如果f∈(192,247],那么它是一个编码后总长度不超过55的列表,列表长度为l=f-192。递归使⽤用规则1~4进行解码。
- 如果f∈(247,256],那么它是编码后长度大于55的列表,其长度本身的编 码长度l=f-247,然后从第二个字节读取长度为l的bytes,按BigEndian编码成整数l,l即为⼦列表长度。然后递归根据解码规则进行解码。