2.简单动态字符串

2020-02-23  本文已影响0人  xMustang

简单动态字符串

C语言传统的字符串表示,是以空字符('\0')结尾的字符串数组,下面简称为C字符串。

Redis自己构建了一种名为简单动态字符串(simple dynamic string,SDS)的抽象类型,用作Redis的默认字符串表示。

在Redis里,C字符串只会作为字符串字面量用在一些无须对字符串值进行修改的地方,如打印日志。

1. SDS的定义

每个shs.h/sdshdr结构表示一个SDS值:

struct sdshdr{
    // 记录buf数组中已使用字节的数量,等于SDS所保存字符串的长度
    int len;

    // 记录buf数组中未使用字节的数量
    int free;

    // 字节数组,用于保存字符串
    char buf[];
SDS示例

SDS遵循C字符串以空字符结尾的惯例,保存空字符串的1字节空间不计算在SDS的len属性里面,并且为空字符分配额外的1字节空间,以及添加空字符到字符串末尾等操作,都是由SDS函数自动完成的,所以这个空字符对于SDS的使用者来说是完全透明的。遵循空字符结尾这一惯例的好处是,SDS可以直接重用一部分C字符串函数库里的函数。

2 SDS与C字符串的区别

C语言使用长度为N+1的字符数组来表示长度为N的字符串,并且字符数组的最后一个元素总是空字符'\0'。下图展示了一个值为Redis的C字符串。

C字符串

2.1 常数复杂度获取字符串长度

C字符串不记录自身的长度信息,所以为了获取一个C字符串的长度,必须遍历整个字符串,操作复杂度为O(N)。

SDS获取长度只要访问len属性,操作复杂度为N(1)。设置和更新SDS长度的工作是由SDS的API在执行时自动完成,无须进行任何手动修改长度的工作。

因为字符串键在底层使用SDS来实现,所以即使我们对一个非常长的字符串键反复执行STRLEN命令,也不会对系统性能造成任何影响,因为复杂度仅为O(1)。

2.2 杜绝缓冲区溢出

C字符串不记录自身长度带来的另一个问题是容易造成缓冲区溢出(buffer overflow)。

C字符串产生缓冲区溢出,不是报错,而是覆盖了内存中其他位置的值。

C字符串溢出

SDS的空间分配策略完全杜绝了发生缓冲区溢出的可能性:当SDS API需要对SDS进行修改时,API会先检查SDS的空间是否满足修改所需的要求,如果不满足,API会自动将SDS的空间扩展至执行修改所需的大小,然后才执行实际的修改操作,所以使用SDS既不需要手动修改SDS的空间大小,与不会出现前面所说的缓冲区溢出问题。

如SDS API中的字符串拼接sdscat,如果空间不足,会先扩展空间,再拼接。

2.3 减少修改字符串时带来的内存重分配次数

内存重分配涉及复杂的算法,并且可能需要执行系统调用,所以通常是一个耗时的操作:

  1. 在一般程序中,如果修改字符串长度的情况不太常出现,那么每次修改都执行一次内存重分配是可以接受的。
  2. Redis作为数据库,如果每次修改字符串的长度都需要一次内存重分配的话,那么会对性能造成影响。

SDS实现了空间预分配和惰性空间释放两种优化策略。

2.3.1 空间预分配

在对SDS进行修改,并且需要进行空间扩展时,会为SDS分配额外的未使用空间。额外分配的未使用空间数量由以下公式决定:

  1. 如果对SDS进行修改后,SDS的长度(也就是len的值)小于1MB,那么会额外分配和len属性同样大小的未使用空间,此时free=len。
  2. 如果对SDS进行修改后,SDS的长度大于等于1MB,那么会额外分配1MB的未使用空间。

2.3.2 惰性空间释放

当SDS的API需要缩短SDS保存的字符串时,程序并不立即使用内存重分配来回收缩短后多出来的字节,而是使用free属性将这些字节的数量记录起来,等待将来使用。

与此同时,SDS也提供了相应的API,让我们可以在有需要时,真正释放SDS的未使用空间,不用担心惰性空间释放策略会造成内存浪费。

2.4 二进制安全

C字符串中的字符必须符合某种编码,并且除了字符串的末尾之外,字符串里面不能包含空字符串,否则最先被程序读入的空字符将被误认为是字符串结尾,这些限制使得C字符串只能保存文本数据,而不能保存像图片、音频、视频、压缩文件这样的二进制数据。

SDS的API都是二进制安全的,所有SDS API都会以处理二进制的方式来处理SDS存放在buf数组里的数据,程序不会对其中的数据做任何限制、过滤或者假设,数据在写入时是什么样子,被读取时就是什么样。

SDS中的buf数组,Redis用这个数组来保存一系列二进制数据,而不是保存字符。

2.5 兼容部分C字符串函数

虽然SDS的API都是二进制安全的,但它们一样遵循C字符串以空字符结尾的惯例:这些API总会将SDS保存的数据的末尾设置为空字符串,并且总会在为buf数组分配空间时多分配一个字节来容纳这个空字符,这是为了让那些保存文本数据的SDS可以重用<string.h>库定义的函数。

2.6 总结

下面对C字符串和SDS之间的区别进行总结。

C字符串 SDS
获取字符串长度的复杂度为O(N) 获取字符串长度的复杂度为O(1)
API是不安全的,可能会造成缓冲区溢出 API是安全的,不会造成缓冲区溢出
修改字符串长度N次必然需要执行N次内存重分配 修改字符串长度N次最多需要执行N次内存重分配
只能保存文本数据 可以保存文本或二进制数据
可以使用所有<string.h>库中的函数 可以使用一部分<string.h>库中的函数

3. SDS API

下面列出SDS主要API。

函数 作用 时间复杂度
sdsnew 创建一个包含给定C字符串的SDS O(N),N为给定C字符串的长度
sdsempty 创建一个不包含任何内容的空SDS O(1)
sdsfree 释放给定的SDS O(N),N为被释放SDS的长度
sdslen 返回SDS的已使用空间字节数 这个值可以通过读取SDS的len属性来直接获得,复杂度为O(1)
sdsavail 返回SDS的未使用空间字节数 这个值可以通过读取SDS的free属性来直接获得,复杂度为O(1)
sdsdup 创建一个给定SDS的副本(copy) O(N),N为给定SDS的长度
sdsclear 清空SDS保存的字符串内容 因为惰性空间释放策略,复杂度为O(1)
sdscat 将给定C字符串拼接到SDS字符串的末尾 O(N),N为被拼接C字符串的长度
sdscatsds 将给定SDS字符串拼接到另一个SDS字符串的末尾 O(N),N为被拼接SDS字符串的长度
sdscpy 将给定的C字符串复制到SDS里面,覆盖SDS原有的字符串 O(N),N为被复制C字符串的长度
sdsgrowzero 用空字符将SDS扩展至给定长度 O(N),N为扩展新增的字节数
sdsrange 保留SDS给定区间内的数据,不在区间内的数据会被覆盖或清除 O(N),N为被保留数据的字节数
sdstrim 接受一个SDS和一个C字符串作为参数,从SDS中移除所有在C字符串中出现过的字符 O(N^2),N为给定C字符串的长度
sdscmp 对比两个SDS字符串是否相同 O(N),N为两个SDS中较短的那个SDS的长度
上一篇下一篇

猜你喜欢

热点阅读