Redis缓存系列:你知道redis企业实战存在的问题吗?
享学课堂特邀作者:老顾****作者头条号:老顾聊技术
前言
小伙伴们对redis应该不陌生,redis是系统必备的分布式缓存中间件,主要用来解决高并发下分担DB资源的负载,从而提升系统吞吐量。
redis支持多种数据类型,String(字符串)、list(列表)、hash(哈希)、set(集合)、zset(有序集合),不同的类型可以应用到不同的业务需求中。
redis的集群部署也增强了redis的高可用性,以及对数据的易扩容。
上面都是redis知识掌握的重点,这些知识点也是我们工作的时候,经常用到的,网上介绍的也挺多,老顾就不介绍了。
今天老顾分享redis企业应用,从业务实战的纬度,看看我们平时使用redis出现了什么问题?如何去解决?
划分
现在我们企业中,做的项目产品肯定不止一个;或者一个大的平台中,会有很多业务线。不同的项目和业务线肯定是不同的团队进行开发的。那大家都会用到redis,那怎么去划分?
独立redis集群
这种方案就是不同的业务用不同的redis集群,这种方案针对一些小项目或业务线不复杂,以及用到redis缓存范围不大的话,是对服务器资源的浪费,而且增加了运维的工作量。
当然也有好处,就是redis资源的独立性,不干扰;一般会用在大项目中。
公共redis集群
这种方案就是一些业务共用一个redis集群,增强了对redis资源的利用率。
问题
在一般企业中,不同的业务线一般我们采用的是公共redis集群,因为业务线都不大,独立集群没有必要。这样虽然对redis资源充分利用了,但会出现一些问题。
如何区分业务
多业务间用redis,会出现很多缓存Key,根本没法知道哪些key是属于哪个业务的,如:
KEY: user:1000、user:book、book、user:like:book、book:user;甚至会出现key冲突。
redis的key在开发的使用是要合理进行设计规划的,但两个不同的团队,技术和管理都不一样,即使有规范文档,但不同的业务团队间,规范的执行就不得而知。
如何优雅扩容
我们在开发web服务时,会用类似jedis客户端连接redis服务器,会在配置文件中加入redis集群地址。不过当系统遇到redis负载太高,或者redis的数据需要扩容,就需要增加redis服务器。这时就需要重新把配置文件中的redis集群更改,再重启应用。
上面的方式是否太low了,都需要重新启动应用,那么多的应用都需要重启,是不是很麻烦,而且如果在无法区分业务的情况下,还不知道重启哪些业务应用。
如何发现异常
因为不同的业务,不同的团队,不同的开发人员在真实业务场景中,我们管理者是无法避免bug存在的,也无法预测线上会发生什么样的问题?如:发现redis集群有不稳定情况,cpu负载非常高,那我们怎么知道是哪个业务导致的呢?
这个是非常重要的,因为这个是公共的redis集群,一旦这个集群挂了,会影响整个业务。
如何截断异常
当我们在生产环境中,发现异常是由哪个业务产生时,或者是哪个应用服务器产生的,那如何很快速截断的让有问题的业务和应用服务器,先不让他们访问我们公共redis集群,等排查出原因在恢复他们的访问权限。
解决方案
小伙伴看到这里,感觉怎么样?是不是工作中,没有想过这些问题,工作中就直接按照网上的介绍先拿来用了。
现在是不是心里在想,怎么去解决上面的问题?
老顾这里介绍一下解决思路,具体整个代码等老顾的开源项目rb-cache上线后,会分享给大家。
区分业务
这个问题解决相对比较简单,就是对我们现有的客户端工具,进行二次封装,
上图就是定义一个二次封装接口
其实原理就是强制在方法中,要开发人员赋予业务区分,每个业务都是在开发前,管理人员定下来的,这个管理就比较简单了。
如果项目管理中,对业务的划分比较合理的话,可以在外面再封装一个简单的方法,把business业务放在配置文件中,这样就不需要每次都要传business这个参数了。
优雅扩容
解决这个问题,其实原理比较简单,就是程序如果能够知道redis集群地址产生了变化,重新设置一下jedis客户端的连接配置。现在的问题就是如何知道redis集群地址发生了改变?
我们可以采用把redis的集群地址配置在zookeeper中,应用在启动的时候,获取zk上的集群地址的值,进行初始化。如果想要改变集群地址,要在zk上面进行设置。
zk重要的特性就是监听特性,节点发生变化,就会立刻把变化发送给应用,从而应用获取到值,重新设置jedis客户端连接
发现异常
发现异常这个问题,其实就是一个监控的问题,我们需要把各个客户端使用redis的情况进行监控。怎么监控?
需要一个监控工具,这个监控工具网上有几个,推荐使用小米的open-falcon,自行搭建改监控系统,搭建比较复杂,但功能比较强大,很多公司都在使用。
当然小伙伴们可以用别的监控工具,只要数据上报协议,和监控报表输出功能即可,当然也要有报警的功能,及时给运维人员报告
再使用Aop拦截redis操作类,拦截redis操作,把相关数据进行封装。每隔1分钟把这些数据上报到open-falcon平台中。具体监控什么数据,由业务决定,一般要把设置的key,业务,操作时长,哪个客户端IP发起的,都需要监控。
在可以设置相关的报警规则,如:某个key一直被调用,在一段时间内操作次数太高。这样就可以方便排查哪些key导致cpu负载太高,就可以去看一下设置这个key的代码,有没有什么问题?是不是死循环等问题?
截断异常
在上面的发现异常的基础上面,如果发现某些业务应用,不正常,就可以立即发起截断该客户端的请求,这样可以保证其他业务不受影响。这里我们使用客户端方式去实现截断。原理也很简单,在redis二次封装的类中,我们需要判断本机是否在黑名单中,如果存在,则无法操作方法,或报异常。
如何知道黑名单的变化,跟优雅扩容那个redis集群地址的改变,方案一样。
总结
在企业应用中,小伙伴们要经常去思考,业务进行中,如何方便管理,及时发现问题,是非常重要的。这也是很多管理者经常忽略的,都只是先把功能完成了,而不顾管理和监控。希望这篇文章能够帮助大家,从另一个纬度发现问题。谢谢!!!
END
欢迎长按下图关注公众号:享学课堂online!
公众号后台回复【java】,获取精选准备的架构学习资料(视频+文档+架构笔记)