故障分析 | Redis 内存碎片率太低该怎么办?
作者:任仲禹
爱可生 DBA 团队成员,擅长故障分析和性能优化,文章相关技术问题,欢迎大家一起讨论。
本文来源:原创投稿
*爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。
背景问题
偶然收到某客户问题“我的 Redis 内存碎片率很低在 0.2 左右,网上说会导致 Redis 性能变慢,我该咋办?”。
官方的计算 Redis 内存碎片率的公式如下:
mem_fragmentation_ratio = used_memory_rss / used_memory
即 Redis 向操作系统中申请的内存
与 分配器分配的内存总量
的比值,两者简单来讲:
-
前者是我们通过 top 命令看到的 redis 进程 RES 内存占用总量
-
后者由 Redis 内存分配器(如 jemalloc)分配,包括自身内存、缓冲区、数据对象等
两者的比值结果 < 1
表示碎片率低, > 1
为高, 碎片率高的问题百度上海量文章有介绍,不多赘述,但碎片率低基本都归咎于使用了 SWAP 而导致 Redis 因访问磁盘而性能变慢。但,真的是这样吗?
验证
客户生产环境中
-
禁用了 SWAP
-
数据量为 60M 左右
-
repl-backlog-size 即复制积压缓冲区配置为 1G
所以我这边设置下 vm.swappiness = 1
将 swap 先关掉,设置 repl-backlog-size=512M,再启个 Redis 空实例。

看下 memory stats
,由于没任何键、复制线程、客户端,所以数据对象占用内存、复制积压缓冲区、客户端相关 buffer 都为 0;此时 Redis 内存分配器分配的内存总量是 863944(启动后初始内存量
startup.allocated+ 初始元数据 dataset.bytes),向操作系统申请的内存为 2789376,碎片率为 3.48。

给测试库启动个从库后,碎片率瞬间降为 0.01;

看下实例配置,实际复制积压缓冲区大小与分配器内存分配值能对应上,都为 512M;所以启动复制后,因为分配总内存变大但向操作系统申请的内存无太大变化,所以碎片率取值自然会骤降。

为什么此时 Redis 不向操作系统申请配置指定的 512M 内存?
答案是:只有在 slave 端初次建立复制/失连时才会真正向操作系统申请复制积压缓存;并且不是一次性向 OS 申请 512M,而是按需使用;可以简单测试如下。
模拟从库失联
从库执行 debug 命令模拟 Redis 夯死

给主库制造点压力

通过指定命令输出内存使用情况如下。

能看到复制积压缓冲区、复制客户端输出缓冲区逐渐消耗内存,但操作系统实际内存 used_memory_rss 并非一次性打满,而是按需增加。
碎片率小于 1 跟数据量有无关系?
前面通过实验,可以知道碎片率低并非仅由 SWAP 导致,复制积压缓冲区等配置值过大、键值对象数据极小的情况下也会使比值降低;那么数据量变大会咋样?
持续灌入数据

可以看到 used_memroy
和 used_memory_rss
都会逐渐变大,内存碎片率取值将逐渐趋于 1。
结论
-
Redis 内存碎片率低并非只跟 SWAP 有关,生产环境通常建议禁用了 SWAP。
-
复制积压缓冲区配置较大、业务数据量较小的情况下极容易造成碎片率
远低于 1
,这是正常现象,无需优化或调整。 -
通常将线上环境复制缓冲区的值
repl-backlog-size
设置的比较大,目的是防止主库频繁出现全量复制而影响性能。 -
随着业务数据量增长,Redis 内存碎片率比值会逐渐趋于 1。