分布式缓存(Redis)

Redis解决单个hashkey的value过大与pipelin

2018-11-28  本文已影响0人  shinkeika

需求

公司目前缓存用户定位信息采用Redis,数据结构采用Hash。随着用户人数增多,单个hashkey的value越来越大,达到200M,严重影响了Redis 的性能。储存用户的hash结构如下。


redis里的hash结构.png

处理思路

根据field生成新的hashkey

$keyNum =  (int) floor($uid/100000);
$newRedisKey = 'user_location_'  .  $keyNum;
$res = $redis->hset($newRedisKey, $uid, $location);

然后将单个hashkey里的数组全部循环一遍,根据uid生成的新key去存储。

处理过程中遇到的问题:

1,获取所有数据的方法KEYS 、 HGETALL 等命令应禁止在生产环境使用。看官方文档,有非常显眼的警告。
2,单条处理产生新的key存储1320000数据,由于redis是单线程的,下一次请求必须等待上一次请求执行完成后才能继续执行。这种方式非常依赖网络,非常耗时。经测试,120万数据,网络良好情况下执行需要3个小时。

针对问题一的解决方法

使用hashscan方法获取单个hashkey的所有数据,
优势:相比于keys命令,hscan命令有两个比较明显的优势:
1.scan命令的时间复杂度虽然也是O(N),但它是分次进行的,不会阻塞线程。
2.scan命令提供了limit参数,可以控制每次返回结果的最大条数。
3.SCAN命令是增量的循环,每次调用只会返回一小部分的元素。所以不会有KEYS命令的坑。
4.SCAN命令返回的是一个游标,从0开始遍历,到0结束遍历。

代码如下

$itertor = NULL;
$allUserLocation = $redis->hScan('user_location', $itertor, '*', 10000000);

参数解释
1.user_location为hashkey值
2.itertor为迭代器,起始位置游标
3.pattern 匹配某一种field
4.单次遍历返回个数

针对问题二的解决方法

采用pipeline
优势:Pipeline模式,客户端可以一次性的发送多个命令,无需等待服务端返回。这样就大大的减少了网络往返时间,提高了系统性能。
缺点:不能保证数据完整性
所以需要开启事务multi

$pipe = $redis->multi($redis::PIPELINE);
$keyNum =  (int) floor($uid/100000);
$newRedisKey = 'user_location_' . $keyNum;
try {
            $res = $pipe->hset($newRedisKey, $uid, $location);
    } catch (Exception $e) {
            echo $e->getMessage();
    }
            unset($arrayAllUser[$uid]);
    }
            $result = $pipe->exec();

multi和pipeline的区别
multi相当于一个redis的transaction的,保证整个操作的原子性,避免由于中途出错而导致最后产生的数据不一致。通过测试得知,pipeline方式执行效率要比其他方式高10倍左右的速度,启用multi写入要比没有开启慢一点。

本以为处理到这里就结束了

大坑

pipeline事实上所能容忍的操作个数,和socket-output缓冲区大小/返回结果的数据尺寸都有很大的关系;同时也意味着每个redis-server同时所能支撑的pipeline链接的个数,也是有限的,这将受限于server的物理内存或网络接口的缓冲能力。
处理到117万条数据时 会报错数据无法落地,rdb无法使用;
处理方法
1:命令

    dev:0> config set stop-writes-on-bgsave-error no

2:vi打开redis-server配置的redis.conf文件,然后使用快捷匹配模式:/ stop-writes-on-bgsave-error定位到stop-writes-on-bgsave-error字符串所在位置,接着把后面的yes设置为no即可。然后重启。
3:数据再分批次处理。
我选用第三种方法,每次只处理50万条。

5分钟执行完毕。

完成任务。

参考文档:Redis中scan命令的深入讲解 https://www.jb51.net/article/148698.htm
redis中multi和pipeline区别以及效率(推荐使用pipeline)

上一篇下一篇

猜你喜欢

热点阅读