Redis 源码分析(七) :skiplist
一、skiplist由来
skiplist
本质上也是一种查找结构,用于解决算法中的查找问题(Searching
),即根据给定的key
,快速查到它所在的位置(或者对应的value
)。
我们在《Redis内部数据结构详解》系列的第一篇中介绍dict的时候,曾经讨论过:一般查找问题的解法分为两个大类:一个是基于各种平衡树,一个是基于哈希表。但skiplist
却比较特殊,它没法归属到这两大类里面。
这种数据结构是由William Pugh
发明的,最早出现于他在1990年发表的论文《Skip Lists: A Probabilistic Alternative to Balanced Trees》。对细节感兴趣的同学可以下载论文原文来阅读。
skiplist
,顾名思义,首先它是一个list
。实际上,它是在有序链表的基础上发展起来的。
我们先来看一个有序链表,如下图(最左侧的灰色节点表示一个空的头结点):
在这样一个链表中,如果我们要查找某个数据,那么需要从头开始逐个进行比较,直到找到包含数据的那个节点,或者找到第一个比给定数据大的节点为止(没找到)。也就是说,时间复杂度为O(n)
。同样,当我们要插入新数据的时候,也要经历同样的查找过程,从而确定插入位置。
假如我们每相邻两个节点增加一个指针,让指针指向下下个节点,如下图:
skip_list1.png这样所有新增加的指针连成了一个新的链表,但它包含的节点个数只有原来的一半(上图中是7, 19, 26)。现在当我们想查找数据的时候,可以先沿着这个新链表进行查找。当碰到比待查数据大的节点时,再回到原来的链表中进行查找。比如,我们想查找23,查找的路径是沿着下图中标红的指针所指向的方向进行的:
skip_list2.png- 23首先和7比较,再和19比较,比它们都大,继续向后比较。
- 但23和26比较的时候,比26要小,因此回到下面的链表(原链表),与22比较。
- 23比22要大,沿下面的指针继续向后和26比较。23比26小,说明待查数据23在原链表中不存在,而且它的插入位置应该在22和26之间。
在这个查找过程中,由于新增加的指针,我们不再需要与链表中每个节点逐个进行比较了。需要比较的节点数大概只有原来的一半。
利用同样的方式,我们可以在上层新产生的链表上,继续为每相邻的两个节点增加一个指针,从而产生第三层链表。如下图:
skip_list3.pngskiplist
正是受这种多层链表的想法的启发而设计出来的。实际上,按照上面生成链表的方式,上面每一层链表的节点个数,是下面一层的节点个数的一半,这样查找过程就非常类似于一个二分查找,使得查找的时间复杂度可以降低到O(log n)
。
但是,这种方法在插入数据的时候有很大的问题。新插入一个节点之后,就会打乱上下相邻两层链表上节点个数严格的2:1的对应关系。如果要维持这种对应关系,就必须把新插入的节点后面的所有节点(也包括新插入的节点)重新进行调整,这会让时间复杂度重新蜕化成O(n)。删除数据也有同样的问题。
skiplist
为了避免这一问题,它不要求上下相邻两层链表之间的节点个数有严格的对应关系,而是为每个节点随机出一个层数(level)
。比如,一个节点随机出的层数是3,那么就把它链入到第1层到第3层这三层链表中。为了表达清楚,下图展示了如何通过一步步的插入操作从而形成一个skiplist
的过程:
从上面skiplist
的创建和插入过程可以看出,每一个节点的层数(level)
是随机出来的,而且新插入一个节点不会影响其它节点的层数。因此,插入操作只需要修改插入节点前后的指针,而不需要对很多节点都进行调整。这就降低了插入操作的复杂度。实际上,这是skiplist
的一个很重要的特性,这让它在插入性能上明显优于平衡树的方案。这在后面我们还会提到。
根据上图中的skiplist
结构,我们很容易理解这种数据结构的名字的由来。skiplist
,翻译成中文,可以翻译成“跳表”或“跳跃表”,指的就是除了最下面第1层链表之外,它会产生若干层稀疏的链表,这些链表里面的指针故意跳过了一些节点(而且越高层的链表跳过的节点越多)。这就使得我们在查找数据的时候能够先在高层的链表中进行查找,然后逐层降低,最终降到第1层链表来精确地确定数据位置。在这个过程中,我们跳过了一些节点,从而也就加快了查找速度。
二、skiplist性能和实现逻辑
skiplist生成随机层数的方法
// redis 5.0.2的客户端代码,redis 3.2.x版本最大Level是32
#define ZSKIPLIST_MAXLEVEL 64 /* Should be enough for 2^64 elements */
#define ZSKIPLIST_P 0.25 /* Skiplist P = 1/4 */
/* Returns a random level for the new skiplist node we are going to create.
* The return value of this function is between 1 and ZSKIPLIST_MAXLEVEL
* (both inclusive), with a powerlaw-alike distribution where higher
* levels are less likely to be returned. */
int zslRandomLevel(void) { // 跳跃表获取随机level值 越大的数出现的几率越小
int level = 1;
while ((random()&0xFFFF) < (ZSKIPLIST_P * 0xFFFF)) // 每往上提一层的概率为4分之一
level += 1;
return (level<ZSKIPLIST_MAXLEVEL) ? level : ZSKIPLIST_MAXLEVEL;
}
由上面的代码可以看出,Redis最大的层数是 64,level
层数最小是 1 ,level+1的概率是1/4
(比如level=2的概率是1/4
,level=3的概率是1/16
依次类推)
skiplist的算法性能分析
我们先来计算一下每个节点所包含的平均指针数目(概率期望)。节点包含的指针数目,相当于这个算法在空间上的额外开销(overhead)
,可以用来度量空间复杂度。
根据前面zslRandomLevel
()代码,我们很容易看出,产生越高的节点层数,概率越低。定量的分析如下:
- 节点层数至少为1。而大于1的节点层数,满足一个概率分布。
- 节点层数恰好等于1的概率为1-p。
- 节点层数大于等于2的概率为p,而节点层数恰好等于2的概率为p(1-p)。
- 节点层数大于等于3的概率为p 2 ,而节点层数恰好等于3的概率为p 2 (1-p)。
- 节点层数大于等于4的概率为p 3 ,而节点层数恰好等于4的概率为p 3 (1-p)。
- 依次类推
因此,一个节点的平均层数(也即包含的平均指针数目),计算如下:
skip_list5.jpg现在很容易计算出:
- 当p=1/4时,每个节点所包含的平均指针数目为1.33(平衡树每个节点包含指针数是2)。这也是Redis里的skiplist实现在空间上的开销。
skiplist算法时间复杂度
为了分析时间复杂度,我们计算一下skiplist
的平均查找长度。查找长度指的是查找路径上跨越的跳数,而查找过程中的比较次数就等于查找长度加1。
为了计算查找长度,这里我们需要利用一点小技巧。我们注意到,每个节点插入的时候,它的层数是由随机函数zslRandomLevel()
计算出来的,而且随机的计算不依赖于其它节点,每次插入过程都是完全独立的。所以从统计上来说,一个skiplist
结构的形成与节点的插入顺序无关。
这样的话,为了计算查找长度,我们可以将查找过程倒过来看,从右下方第1层上最后到达的那个节点开始,沿着查找路径向左向上回溯,类似于爬楼梯的过程。我们假设当回溯到某个节点的时候,它才被插入,这虽然相当于改变了节点的插入顺序,但从统计上不影响整个skiplist
的形成结构。
现在假设我们从一个层数为i
的节点x
出发,需要向左向上攀爬k
层。这时我们有两种可能:
如果节点x
有第(i+1)
层指针,那么我们需要向上走。这种情况概率为p
。
如果节点x
没有第(i+1)
层指针,那么我们需要向左走。这种情况概率为(1-p)
。
这两种情形如下图所示:
[图片上传失败...(image-4eddd1-1565973809739)]
用C(k)
表示向上攀爬k
个层级所需要走过的平均查找路径长度(概率期望),那么:
C(0)=0
C(k)=(1-p)×(上图中情况b的查找长度) + p×(上图中情况c的查找长度)
代入,得到一个差分方程并化简:
C(k)=(1-p)(C(k)+1) + p(C(k-1)+1)
C(k)=1/p+C(k-1)
C(k)=k/p
这个结果的意思是,我们每爬升1个层级,需要在查找路径上走1/p
步。而我们总共需要攀爬的层级数等于整个skiplist
的总层数-1。
那么接下来我们需要分析一下当skiplist
中有n
个节点的时候,它的总层数的概率均值是多少。这个问题直观上比较好理解。根据节点的层数随机算法,容易得出:
- 第1层链表固定有
n
个节点; - 第2层链表平均有
n*p
个节点; - 第3层链表平均有
n*p 2
个节点; - ...
所以,从第1层到最高层,各层链表的平均节点数是一个指数递减的等比数列。容易推算出,总层数的均值为log 1/p n
,而最高层的平均节点数为1/p
。
综上,粗略来计算的话,平均查找长度约等于:
C(log 1/p n-1)=(log 1/p n-1)/p
即,平均时间复杂度为O(log n)。
当然,这里的时间复杂度分析还是比较粗略的。比如,沿着查找路径向左向上回溯的时候,可能先到达左侧头结点,然后沿头结点一路向上;还可能先到达最高层的节点,然后沿着最高层链表一路向左。但这些细节不影响平均时间复杂度的最后结果。另外,这里给出的时间复杂度只是一个概率平均值,但实际上计算一个精细的概率分布也是有可能的。详情还请参见William Pugh的论文《Skip Lists: A Probabilistic Alternative to Balanced Trees》。
三、redis的实现
结构体定义
typedef struct zskiplistNode { // 跳跃表节点
robj *obj; // redis对象
double score; // 分值
struct zskiplistNode *backward; // 后退指针
struct zskiplistLevel {
struct zskiplistNode *forward; // 前进指针
unsigned int span; // 跨度
} level[];
} zskiplistNode;
typedef struct zskiplist {
struct zskiplistNode *header, *tail;
unsigned long length; // 跳跃表长度
int level; // 目前跳跃表的最大层数节点
} zskiplist;
redis 的跳跃表是一个双向的链表,并且在zskiplist
结构体中保存了跳跃表的长度和头尾节点,方便从头查找或从尾部遍历。
zskiplistNode
定义了skiplist
的节点结构。
-
obj
字段存放的是节点数据,它的类型是一个string robj
。本来一个string robj
可能存放的不是sds
,而是long
型,但zadd
命令在将数据插入到skiplist
里面之前先进行了解码,所以这里的obj
字段里存储的一定是一个sds
。这样做的目的应该是为了方便在查找的时候对数据进行字典序的比较,而且,skiplist
里的数据部分是数字的可能性也比较小。 -
score
字段是数据对应的分数。 -
backward
字段是指向链表前一个节点的指针(前向指针)。节点只有1个前向指针,所以只有第1层链表是一个双向链表。 -
level[]
存放指向各层链表后一个节点的指针(后向指针)。每层对应1个后向指针,用forward
字段表示。另外,每个后向指针还对应了一个span
值,它表示当前的指针跨越了多少个节点。span
用于计算元素排名(rank)
,这正是前面我们提到的Redis对于skiplist
所做的一个扩展。需要注意的是,level[]
是一个柔性数组(flexible array member)
,因此它占用的内存不在zskiplistNode
结构里面,而需要插入节点的时候单独为它分配。也正因为如此,skiplist
的每个节点所包含的指针数目才是不固定的,我们前面分析过的结论——skiplist
每个节点包含的指针数目平均为1/(1-p)
——才能有意义。
zskiplist
定义了真正的skiplist
结构,它包含:
- 头指针
header
和尾指针tail
。 - 链表长度
length
,即链表包含的节点总数。注意,新创建的skiplist
包含一个空的头指针,这个头指针不包含在length
计数中。 -
level
表示skiplist
的总层数,即所有节点层数的最大值。
注意:图中前向指针上面括号中的数字,表示对应的span
的值。即当前指针跨越了多少个节点,这个计数不包括指针的起点节点,但包括指针的终点节点。
假设我们在这个skiplist
中查找score=89.0
的元素(即Bob的成绩数据),在查找路径中,我们会跨域图中标红的指针,这些指针上面的span
值累加起来,就得到了Bob的排名(2+2+1)-1=4
(减1是因为rank值以0起始)。需要注意这里算的是从小到大的排名,而如果要算从大到小的排名,只需要用skiplist
长度减去查找路径上的span
累加值,即6-(2+2+1)=1
。
可见,在查找skiplist
的过程中,通过累加span
值的方式,我们就能很容易算出排名。相反,如果指定排名来查找数据(类似zrange
和zrevrange
那样),也可以不断累加span
并时刻保持累加值不超过指定的排名,通过这种方式就能得到一条O(log n)
的查找路径。
跳跃表创建及插入
跳跃表的创建就是一些基本的初始化操作,需要注意的是 redis 的跳跃表最大层数为 64,是为了能够足够支撑优化2^64
个元素的查找。假设每个元素出现在上一层索引的概率为0.5,每个元素出现在第n层的概率为1/2^n
,所以当有2^n
个元素时,需要n层索引保证查询时间复杂度为O(logN)
。
zskiplistNode *zslCreateNode(int level, double score, robj *obj) { // 跳跃表节点创建
zskiplistNode *zn = zmalloc(sizeof(*zn)+level*sizeof(struct zskiplistLevel));
zn->score = score;
zn->obj = obj;
return zn;
}
zskiplist *zslCreate(void) { // 跳跃表创建
int j;
zskiplist *zsl;
zsl = zmalloc(sizeof(*zsl));
zsl->level = 1;
zsl->length = 0;
zsl->header = zslCreateNode(ZSKIPLIST_MAXLEVEL,0,NULL); // 创建头结点
for (j = 0; j < ZSKIPLIST_MAXLEVEL; j++) { // 初始化头结点
zsl->header->level[j].forward = NULL;
zsl->header->level[j].span = 0;
}
zsl->header->backward = NULL;
zsl->tail = NULL;
return zsl;
}
redis 的跳跃表出现在上层索引节点的概率为0.25,在这样的概率下跳跃表的查询效率会略大于O(logN),但是索引的存储内存却能节省一半。
zskiplistNode *zslInsert(zskiplist *zsl, double score, robj *obj) { // 跳跃表zset节点插入
zskiplistNode *update[ZSKIPLIST_MAXLEVEL], *x;
unsigned int rank[ZSKIPLIST_MAXLEVEL];
int i, level;
serverAssert(!isnan(score));
x = zsl->header;
for (i = zsl->level-1; i >= 0; i--) { // 获取带插入节点的位置
/* store rank that is crossed to reach the insert position */
rank[i] = i == (zsl->level-1) ? 0 : rank[i+1];
while (x->level[i].forward &&
(x->level[i].forward->score < score ||
(x->level[i].forward->score == score &&
compareStringObjects(x->level[i].forward->obj,obj) < 0))) { // 如果当前节点分支小于带插入节点
rank[i] += x->level[i].span; // 记录各层x前一个节点的索引跨度
x = x->level[i].forward; // 查找一下个节点
}
update[i] = x; // 记录各层x的前置节点
}
level = zslRandomLevel(); // 获取当前节点的level
if (level > zsl->level) { // 如果level大于当前skiplist的level 将大于部分的header初始化
for (i = zsl->level; i < level; i++) {
rank[i] = 0;
update[i] = zsl->header;
update[i]->level[i].span = zsl->length;
}
zsl->level = level;
}
x = zslCreateNode(level,score,obj); // 创建新节点
for (i = 0; i < level; i++) {
x->level[i].forward = update[i]->level[i].forward; // 建立x节点索引
update[i]->level[i].forward = x; // 将各层x的前置节点的后置节点置为x
/* update span covered by update[i] as x is inserted here */
x->level[i].span = update[i]->level[i].span - (rank[0] - rank[i]); // 计算x节点各层索引跨度
update[i]->level[i].span = (rank[0] - rank[i]) + 1; // 计算x前置节点的索引跨度
}
/* increment span for untouched levels */
for (i = level; i < zsl->level; i++) { // 如果level小于zsl的level
update[i]->level[i].span++; // 将x前置节点的索引跨度加一
}
x->backward = (update[0] == zsl->header) ? NULL : update[0]; // 设置x前置节点
if (x->level[0].forward)
x->level[0].forward->backward = x; // 设置x后面节点的前置节点
else
zsl->tail = x;
zsl->length++; // length+1
return x;
}
Redis中skiplist实现的特殊性
在Redis中,skiplist
被用于实现暴露给外部的一个数据结构:sorted set
。准确地说,sorted set
底层不仅仅使用了skiplist
,还使用了ziplist
和dict
。
我们简单分析一下sorted set
的几个查询命令:
-
zrevrank
由数据查询它对应的排名,这在前面介绍的skiplist
中并不支持。 -
zscore
由数据查询它对应的分数,这也不是skiplist
所支持的。 -
zrevrange
根据一个排名范围,查询排名在这个范围内的数据。这在前面介绍的skiplist
中也不支持。 -
zrevrangebyscore
根据分数区间查询数据集合,是一个skiplist
所支持的典型的范围查找(score
相当于key
)。
实际上,Redis中sorted set
的实现是这样的:
- 当数据较少时,
sorted set
是由一个ziplist
来实现的。 - 当数据多的时候,
sorted set
是由一个dict
+ 一个skiplist
来实现的。简单来讲,dict
用来查询数据到分数的对应关系,而skiplist
用来根据分数查询数据(可能是范围查找)。
现在我们集中精力来看一下sorted set
与skiplist
的关系:
-
zscore
的查询,不是由skiplist
来提供的,而是由那个dict
来提供的。 - 为了支持排名
(rank)
,Redis里对skiplist
做了扩展,使得根据排名能够快速查到数据,或者根据分数查到数据之后,也同时很容易获得排名。而且,根据排名的查找,时间复杂度也为O(log n)
。 -
zrevrange
的查询,是根据排名查数据,由扩展后的skiplist
来提供。 -
zrevrank
是先在dict
中由数据查到分数,再拿分数到skiplist
中去查找,查到后也同时获得了排名。
前述的查询过程,也暗示了各个操作的时间复杂度:
-
zscore
只用查询一个dict
,所以时间复杂度为O(1)
-
zrevrank
,zrevrange
,zrevrangebyscore
由于要查询skiplist
,所以zrevrank
的时间复杂度为O(log n)
,而zrevrange
,zrevrangebyscore
的时间复杂度为O(log(n)+M)
,其中M是当前查询返回的元素个数。
总结起来,Redis中的skiplist
跟前面介绍的经典的skiplist
相比,有如下不同:
- 分数
(score)
允许重复,即skiplist
的key允许重复。这在最开始介绍的经典skiplist
中是不允许的。 - 在比较时,不仅比较分数(相当于
skiplist
的key
),还比较数据本身。在Redis的skiplist
实现中,数据本身的内容唯一标识这份数据,而不是由key来唯一标识。另外,当多个元素分数相同的时候,还需要根据数据内容来进字典排序。 - 第1层链表不是一个单向链表,而是一个双向链表。这是为了方便以倒序方式获取一个范围内的元素。
- 在skiplist中可以很方便地计算出每个元素的排名(rank)。
Redis中的sorted set
我们前面提到过,Redis中的sorted set
,是在skiplist
, dict
和ziplist
基础上构建起来的:
- 当数据较少时,
sorted set
是由一个ziplist
来实现的。 - 当数据多的时候,
sorted set
是由一个叫zset的数据结构来实现的,这个zset
包含一个dict
+ 一个skiplist
。dict用来查询数据到分数(score)
的对应关系,而skiplist
用来根据分数查询数据(可能是范围查找)。
在这里我们先来讨论一下前一种情况——基于ziplist
实现的sorted set
。在本系列前面关于ziplist
的文章里,我们介绍过,ziplist
就是由很多数据项组成的一大块连续内存。由于sorted set
的每一项元素都由数据和score
组成,因此,当使用zadd
命令插入一个(数据, score
)对的时候,底层在相应的ziplist
上就插入两个数据项:数据在前,score
在后。
ziplist
的主要优点是节省内存,但它上面的查找操作只能按顺序查找(可以正序也可以倒序)。因此,sorted set
的各个查询操作,就是在ziplist
上从前向后(或从后向前)一步步查找,每一步前进两个数据项,跨域一个(数据, score
)对。
随着数据的插入,sorted set
底层的这个ziplist
就可能会转成zset
的实现(转换过程详见t_zset.c
的zsetConvert
)。
zset-max-ziplist-entries 128
zset-max-ziplist-value 64
这个配置的意思是说,在如下两个条件之一满足的时候,ziplist
会转成zset
(具体的触发条件参见t_zset.c
中的zaddGenericCommand
相关代码):
- 当
sorted set
中的元素个数,即(数据, score)对的数目超过128的时候,也就是ziplist数据项超过256的时候。 - 当
sorted set
中插入的任意一个数据的长度超过了64的时候。
最后,zset
结构的代码定义如下:
typedef struct zset { dict *dict; zskiplist *zsl; } zset;
四、skiplist与平衡树、哈希表的比较
-
skiplist
和各种平衡树(如AVL
、红黑树等)的元素是有序排列的,而哈希表不是有序的。因此,在哈希表上只能做单个key
的查找,不适宜做范围查找。所谓范围查找,指的是查找那些大小在指定的两个值之间的所有节点。 - 在做范围查找的时候,平衡树比
skiplist
操作要复杂。在平衡树上,我们找到指定范围的小值之后,还需要以中序遍历的顺序继续寻找其它不超过大值的节点。如果不对平衡树进行一定的改造,这里的中序遍历并不容易实现。而在skiplist
上进行范围查找就非常简单,只需要在找到小值之后,对第1层链表进行若干步的遍历就可以实现。 - 平衡树的插入和删除操作可能引发子树的调整,逻辑复杂,而
skiplist
的插入和删除只需要修改相邻节点的指针,操作简单又快速。 - 从内存占用上来说,
skiplist
比平衡树更灵活一些。一般来说,平衡树每个节点包含2个指针(分别指向左右子树),而skiplist每个节点包含的指针数目平均为1/(1-p)
,具体取决于参数p
的大小。如果像Redis里的实现一样,取p=1/4
,那么平均每个节点包含1.33个指针,比平衡树更有优势。 - 查找单个
key
,skiplist
和平衡树的时间复杂度都为O(log n),大体相当;而哈希表在保持较低的哈希值冲突概率的前提下,查找时间复杂度接近O(1),性能更高一些。所以我们平常使用的各种Map
或dictionary
结构,大都是基于哈希表实现的。 - 从算法实现难度上来比较,
skiplist
比平衡树要简单得多。
五、Redis为什么用skiplist而不用平衡树?
在前面我们对于skiplist
和平衡树、哈希表的比较中,其实已经不难看出Redis里使用skiplist
而不用平衡树的原因了。现在我们看看,对于这个问题,Redis的作者 @antirez
是怎么说的:
There are a few reasons:
-
They are not very memory intensive. It's up to you basically. Changing parameters about the probability of a node to have a given number of levels will make then less memory intensive than btrees.
-
A sorted set is often target of many ZRANGE or ZREVRANGE operations, that is, traversing the skip list as a linked list. With this operation the cache locality of skip lists is at least as good as with other kind of balanced trees.
-
They are simpler to implement, debug, and so forth. For instance thanks to the skip list simplicity I received a patch (already in Redis master) with augmented skip lists implementing ZRANK in O(log(N)). It required little changes to the code.
这里从内存占用、对范围查找的支持和实现难易程度这三方面总结的原因,我们在前面其实也都涉及到了。