Redis解决单个hashkey的value过大与pipelin

2018-11-28 本文已影响0人 shinkeika

需求

公司目前缓存用户定位信息采用Redis，数据结构采用Hash。随着用户人数增多，单个hashkey的value越来越大，达到200M，严重影响了Redis 的性能。储存用户的hash结构如下。

redis里的hash结构.png

处理思路

根据field生成新的hashkey

$keyNum =  (int) floor($uid/100000);
$newRedisKey = 'user_location_'  .  $keyNum;
$res = $redis->hset($newRedisKey, $uid, $location);

然后将单个hashkey里的数组全部循环一遍，根据uid生成的新key去存储。

处理过程中遇到的问题：

1，获取所有数据的方法KEYS 、 HGETALL 等命令应禁止在生产环境使用。看官方文档，有非常显眼的警告。
2，单条处理产生新的key存储1320000数据，由于redis是单线程的，下一次请求必须等待上一次请求执行完成后才能继续执行。这种方式非常依赖网络，非常耗时。经测试，120万数据，网络良好情况下执行需要3个小时。

针对问题一的解决方法

使用hashscan方法获取单个hashkey的所有数据，
优势：相比于keys命令，hscan命令有两个比较明显的优势：
1.scan命令的时间复杂度虽然也是O(N)，但它是分次进行的，不会阻塞线程。
2.scan命令提供了limit参数，可以控制每次返回结果的最大条数。
3.SCAN命令是增量的循环，每次调用只会返回一小部分的元素。所以不会有KEYS命令的坑。
4.SCAN命令返回的是一个游标，从0开始遍历，到0结束遍历。

代码如下

$itertor = NULL;
$allUserLocation = $redis->hScan('user_location', $itertor, '*', 10000000);

参数解释
1.user_location为hashkey值
2.itertor为迭代器，起始位置游标
3.pattern 匹配某一种field
4.单次遍历返回个数

针对问题二的解决方法

采用pipeline
优势：Pipeline模式，客户端可以一次性的发送多个命令，无需等待服务端返回。这样就大大的减少了网络往返时间，提高了系统性能。
缺点：不能保证数据完整性
所以需要开启事务multi

$pipe = $redis->multi($redis::PIPELINE);
$keyNum =  (int) floor($uid/100000);
$newRedisKey = 'user_location_' . $keyNum;
try {
            $res = $pipe->hset($newRedisKey, $uid, $location);
    } catch (Exception $e) {
            echo $e->getMessage();
    }
            unset($arrayAllUser[$uid]);
    }
            $result = $pipe->exec();

multi和pipeline的区别
multi相当于一个redis的transaction的，保证整个操作的原子性，避免由于中途出错而导致最后产生的数据不一致。通过测试得知，pipeline方式执行效率要比其他方式高10倍左右的速度，启用multi写入要比没有开启慢一点。

本以为处理到这里就结束了

大坑

pipeline事实上所能容忍的操作个数，和socket-output缓冲区大小/返回结果的数据尺寸都有很大的关系；同时也意味着每个redis-server同时所能支撑的pipeline链接的个数，也是有限的，这将受限于server的物理内存或网络接口的缓冲能力。
处理到117万条数据时会报错数据无法落地,rdb无法使用；
处理方法
1：命令

    dev:0> config set stop-writes-on-bgsave-error no

2：vi打开redis-server配置的redis.conf文件，然后使用快捷匹配模式：/ stop-writes-on-bgsave-error定位到stop-writes-on-bgsave-error字符串所在位置，接着把后面的yes设置为no即可。然后重启。
3：数据再分批次处理。
我选用第三种方法，每次只处理50万条。

5分钟执行完毕。

完成任务。

参考文档：Redis中scan命令的深入讲解 https://www.jb51.net/article/148698.htm
redis中multi和pipeline区别以及效率(推荐使用pipeline)