Redis字符串与C字符串区别
一、数据结构
redis的字符串底层数据结构是sds(simple dynamic string),即简单动态字符串,其结构体定义如下:
struct sdshdr {
// buf 中已占用空间的长度
int len;
// buf 中剩余可用空间的长度
int free;
// 数据空间
char buf[];
};
其中:
len:当前实际存储的字符串长度
free:剩余未使用的长度
buf:用于存储数据的字节数组
SDS遵循C语言字符串以空字符结尾的惯例,保存空字符的1字节空间不计算在sds的len属性中,并且为空字符分配额外的1字节空间,以及添加空字符到字符串末尾等操作,都有SDS函数自动完成。
二、复杂度问题
SDS由于存储了len属性,所以获取字符长度的时间复杂度为O(1),而C字符串并不记录本身长度,故获取字符串长度需要遍历整个字符串,直到遇到空字符,时间复杂度为O(N)。SDS的长度更新是有SDS的API自动完成。
SDS的设计是典型的利用空间换时间。
三、内存分配释放策略
概括为预分配+惰性释放
SDS的内存分配策略:
1 如果对SDS字符串修改后,len的值小于1MB,那么程序会分配和len同样大小的空间,此时len和free的值是相同的,例如,如果SDS的字符串长度修改为15字节,那么会分配15字节空间给free,SDS的buf属性长度为15(len)+15(free)+1(空字符) = 31字节。
2 如果SDS字符串修改后,len大于等于1MB,那么程序会分配1MB的空间给free,例如,SDS字符串长度修改为50MB那么程序会分配1MB的未使用空间给free,SDS的buf属性长度为50MB(len)+1MB(free)+1byte(空字符)。
预分配策略有效减少了内存充分配操作次数。
SDS的内存释放策略:
当需要缩短SDS字符串时,程序并不立刻将内存释放,而是使用free属性将这些空间记录下来,以备将来使用。
三、缓冲区溢出问题
SDS的字符串的内存预分配策略能有效避免缓冲区溢出问题,
C字符串每次操作增加长度时,都要分配足够长度的内存空间,否则就会产生缓冲区溢出(buffer overflow)。
四、二进制安全问题
SDS字符串API都是以处理二进制的方式处理buf数组里的数据,程序不会对其中的数据进行过滤、操作等,所以SDS是二进制数据安全的。
C字符串的字符则必须符合某种编码(ASCII),并且字符串的中间不能包含空字符,否则字符串就会被截断,所以C字符串智能保存文本数据,而不能保存图片、音视频等数据类型。