一个人的书房魔法书

Redis RDB格式

2016-08-22  本文已影响479人  allanYan

概览

Header

RDB文件的头部占用9bytes,前5bytes为Magic String,后4bytes为版本号;

52 45 44 49 53 #"REDIS",就像java的class文件以0xCAFEBABE开头一样
30 30 30 36    #RDB版本号,30表示‘0’,版本号为0006=6

注意:版本号是字符串而不是整型;:

 snprintf(magic,sizeof(magic),"REDIS%04d",RDB_VERSION);

Body

DB Selector

FE开头表示后跟表示DB Selector;例如:

FE 00#FE表明数据库的哪个db,此处为db0

注意:DB Selector长度不固定,具体的编码方式请参见后文的Length编码

AUX Fields

FA开头表示后跟AUX Fields,记录生成Dump文件的Redis相关信息,例如redis-ver、redis-bits、used-mem、aof-preamble和repl-id等;
这些信息采用String编码


注意:redis3.0版本的RDB版本号为6,redis3.2的版本号为7;

Key-Value

key-value有三种格式:

  1. expire为second

    FD $unsigned int    #失效时间(秒),4个字节
    $value-type         #1个字节,表明数据类型:set,map等
    $string-encoded-key #key值,字符串类型
    $encoded-value      #value,编码方式和类型有关
    
  2. expire为millisecond

    FC $unsigned long    #失效时间(毫秒),8个字节
    $value-type          #数据类型,1个字节
    $string-encoded-key  #key,字符串类型
    $encoded-value       #value,编码方式和类型有关
    
  3. 无expire

    $value-type         #数据类型,1个字节
    $string-encoded-key #key,字符串类型
    $encoded-value      #value,编码方式和类型有关
    

Footer

FF              #RDB文件的结束
8byte checksum #循环冗余校验码,Redis采用crc-64-jones算法,初始值为0

编码算法说明

Length编码

长度采用BigEndian格式存储,为无符号整数

  1. 如果以"00"开头,那么接下来的6个bit表示长度;
  2. 如果以“01”开头,那么接下来的14个bit表示长度;
  3. 如果以"10"开头,该byte的剩余6bit废弃,接着读入4个bytes表示长度(BigEndian);
  4. 如果以"11"开头,那么接下来的6个bit表示特殊的编码格式,一般用来存储数字:

String编码

该编码方式首先采用Length编码 进行解析:

  1. 从上面的Length编码知道,如果以"00","01","10"开头,首先读取长度;然后从接下来的内容中读取指定长度的字符;
  2. 如果以"11"开头,而且接下来的6个字节为“0”、“1”和“2”,那么直接读取接下来的1,2,4bytes做为字符串的内容(实际上存储的是数字,只不过按照字符串的格式存储);
  3. 如果以“11”开头,而且接下来的6个字节为"3",表明采用LZF压缩字符串格式:

LZF编码的解析步骤为:

  1. 首先采用Length编码读取压缩后字符串的长度clen;
  2. 接着采用Length编码读取压缩前的字符串长度;
  3. 读取clen长度的字节,并采用lzf算法解压得到原始的字符串

Score编码

  1. 读取1个字节,如果为255,则返回负无穷;
  2. 如果为254,返回正无穷;
  3. 如果为253,返回非数字;
  4. 否则,将该字节的值做为长度,读取该长度的字节,将结果做为分值;

Value编码

Redis中的value编码包括如下类型:

类型名称 类型代码
String Encoding 0
List Encoding 1
Set Encoding 2
Sorted Set Encoding 3
Hash Encoding 4
Zipmap Encoding 9
Ziplist Encoding 10
Intset Encoding 11
Sorted Set in Ziplist Encoding 12
Hashmap in Ziplist Encoding 13

其中String编码在前面已经介绍过,接下来逐一介绍其他的9种编码方式;

List

  1. 首先用Length编码读取List的长度lsize
  2. 采用String编码读取lsize个字符串

Set

同List

Sorted Set

  1. 首先用Length编码读取Sorted Set的长度zsize
  2. 采用String编码读取字符串,采用Score编码读取分值;
  3. 循环读取zsize次;

Hash

  1. 采用Length编码读取Hash的大小hsize
  2. 采用String编码读取2*hsize的字符串,按照key,value的方式组装成Map

Zipmap

用于存储hashmap,Redis2.6之后,该编码被废弃,转而采用Ziplist编码;

采用String编码读取整个zipmap字符串,hashmap字符串的格式为:

<zmlen><len>"foo"<len><free>"bar"<len>"hello"<len><free>"world"<zmend>
  1. zmlen:一个字节,Zipmap的大小;如果>=254,意味着zipmap的大小无法直接获取到,必须要遍历整个zipmap才能得到大小;
  2. len:字符串长度,1或5个字节长度;如果第一个字节在0~252之间,那么长度为第一个字节;如果为253,那么接下来的4个字节表示长度;254和255是无效值;
  3. free:1字节,表明value空闲的字节数;
  4. zmend:0xff,表示Zipmap的结尾;

Ziplist

采用String编码读取整个ziplist字符串,字符串的格式为:

<zlbytes><zltail><zllen><entry><entry><zlend>
  1. zlbytes:4字节无符号整数,表示ziplist占用的总字节数;
  2. zltail:4字节无符号整数(little endian),表示尾元素的偏移量;
  3. zllen:2字节无符号整数(little endian),表示ziplist中的元素个数, 当元素个数大于65535时,无法用2字节表示,需要遍历列表获取元素个数;
  4. entry:ziplist中的元素;
  5. zlend:常量(0xff),表示ziplist的结尾;

entry的格式:

<length-prev-entry><encoding><content>
  1. lenth-prev-entry:如果第一个字节<254,则用1bytes表示长度;否则则用接下来的4bytes(无符号整数)表示长度;
  2. encoding
  1. content
    entry内容,它的长度通过前面的encoding确定;

注意:元素长度、内容长度等都是采用Little Endian编码;

Intset

Intset是一个整数组成的二叉树;当set的所有元素都是整形的时候,Redis会采用该编码进行存储;Inset最大可以支持64bit的整数,做为优化,如果整数可以用更少的字节数表示,Redis可能会用16~32bit来表示;注意的是当插入一个长度不一样的整数时,有可能会引起整个存储结构的变化

由于Intset是一个二叉树,因此它的元素都是排序过的;
采用String编码读取整个intset字符串,字符串的格式为:

<encoding><length-of-contents><contents>
  1. encoding:32bit的无符号整数;可选值包括2、4和8;表示inset中的每个整数占用的字节数;
  2. length-of-contents:32bit无符号整数,表示Intset中包含的整数个数;
  3. contents:整数数组,长度由length-of-contents决定;

Sorted Set in Ziplist Encoding

采用Ziplist编码,区别在于用两个entry分别表示元素和分值;

Hashmap in Ziplist Encoding

采用Ziplist编码,区别在于用两个entry分别表示key和value;

代码样例

代码样例请参考github上的例子redis-sync

上一篇 下一篇

猜你喜欢

热点阅读