redis高可用

2020-02-18 本文已影响0人爱读书的夏夏

1.有备无患-主从

image.png

redis单副本

Redis单副本，采用单个Redis节点部署架构，没有备用节点实时同步数据，不提供数据持久化和备份策略，适用于数据可靠性要求不高的纯缓存业务场景。

优点：

架构简单，部署方便；

高性价比：缓存使用时无需备用节点，当然为了满足业务的高可用性，也可以牺牲一个备用节点，但同时刻只有一个实例对外提供服务；

高性能。

缺点：

不保证数据的可靠性；

在缓存使用，进程重启后，数据丢失，即使有备用的节点解决高可用性，但是仍然不能解决缓存预热问题，因此不适用于数据可靠性要求高的业务；

高性能受限于单核CPU的处理能力（Redis是单线程机制），CPU为主要瓶颈，所以适合操作命令简单，排序、计算较少的场景。

redis多副本

image.png

Redis多副本，采用主从部署结构，相较于单副本而言最大的特点就是主从实例间数据实时同步，并且提供数据持久化和备份策略。主从实例部署在不同的物理服务器上，可以实现同时对外提供服务和读写分离策略。

优点：

高可靠性：一方面，采用双机主备架构，能够在主库出现故障时自动进行主备切换，从库提升为主库提供服务，保证服务平稳运行；另一方面，开启数据持久化功能和配置合理的备份策略，能有效的解决数据误操作和数据异常丢失的问题；

读写分离策略：从节点可以扩展主库节点的读能力，有效应对大并发量的读操作。

缺点：

故障恢复复杂，如果没有RedisHA系统（需要开发），当主库节点出现故障时，需要手动将一个从节点晋升为主节点，同时需要通知业务方变更配置，并且需要让其它从库节点去复制新主库节点，整个过程需要人为干预，比较繁琐；

其他：

主库的写能力受到单机的限制，可以考虑分片；

主库的存储能力受到单机的限制，可以考虑Pika；

原生复制的弊端在早期的版本中也会比较突出，如：Redis复制中断后，Slave会发起psync，此时如果同步不成功，则会进行全量同步，主库执行全量备份的同时可能会造成毫秒或秒级的卡顿；主库节点生成备份文件导致服务器磁盘IO和CPU（压缩）资源消耗；发送数GB大小的备份文件导致服务器出口带宽暴增，阻塞请求，建议升级到最新版本。

2.李代桃僵-哨兵

image.png

Redis Sentinel是社区版本推出的原生高可用解决方案，其部署架构主要包括两部分：Redis Sentinel集群和Redis数据集群。

其中RedisSentinel集群是由若干Sentinel节点组成的分布式集群，可以实现故障发现、故障自动转移、配置中心和客户端通知。Redis Sentinel的节点数量要满足2n+1（n>=1）的奇数个。

原理-三个定时任务：

每隔10s，每个Sentinel节点向主节点和从节点发送info命令获取最新的拓扑结构。

每隔2s，每隔Sentinel节点会向Redis数据节点的sentinel:hello频道上发送Sentinel节点对于主节点的判断以及当前Sentinel节点的信息，同时每个Sentinel节点也会订阅该频道，来了解其他Sentinel节点以及它们对主节点的判断。

每隔1s，每个Sentinel节点会向主节点、从节点、其余Sentinel节点发送一条ping命令做一次心跳检测，来确认这些节点当前是否可达。

优点：

Redis Sentinel集群部署简单；

能够解决Redis主从模式下的高可用切换问题；

很方便实现Redis数据节点的线形扩展，轻松突破Redis自身单线程瓶颈，可极大满足Redis大容量或高性能的业务需求；

可以实现一套Sentinel监控一组Redis数据节点或多组数据节点。

缺点：

部署相对Redis主从模式要复杂一些，原理理解更繁琐；

资源浪费，Redis数据节点中slave节点作为备份节点不提供服务；

Redis Sentinel主要是针对Redis数据节点中的主节点的高可用切换，对Redis的数据节点做失败判定分为主观下线和客观下线两种，对于Redis的从节点有对节点做主观下线操作，并不执行故障转移。

不能解决读写分离问题，实现起来相对复杂。

3.众志成城-Redis Cluster

image.png

Redis Cluster是社区版推出的Redis分布式集群解决方案，主要解决Redis分布式方面的需求，比如，当遇到单机内存，并发和流量等瓶颈的时候，Redis Cluster能起到很好的负载均衡的目的。

Redis Cluster集群节点最小配置6个节点以上（3主3从），其中主节点提供读写操作，从节点作为备用节点，不提供请求，只作为故障转移使用。

Redis Cluster采用虚拟槽分区，所有的键根据哈希函数映射到0～16383个整数槽内，每个节点负责维护一部分槽以及槽所印映射的键值数据。

优点：

无中心架构；

数据按照slot存储分布在多个节点，节点间数据共享，可动态调整数据分布；

可扩展性：可线性扩展到1000多个节点，节点可动态添加或删除；

高可用性：部分节点不可用时，集群仍可用。通过增加Slave做standby数据副本，能够实现故障自动failover，节点之间通过gossip协议交换状态信息，用投票机制完成Slave到Master的角色提升；

降低运维成本，提高系统的扩展性和可用性。

缺点：

Client实现复杂，驱动要求实现Smart Client，缓存slots mapping信息并及时更新，提高了开发难度，客户端的不成熟影响业务的稳定性。目前仅JedisCluster相对成熟，异常处理部分还不完善，比如常见的“max redirect exception”。

节点会因为某些原因发生阻塞（阻塞时间大于clutser-node-timeout），被判断下线，这种failover是没有必要的。

数据通过异步复制，不保证数据的强一致性。

多个业务使用同一套集群时，无法根据统计区分冷热数据，资源隔离性较差，容易出现相互影响的情况。

Slave在集群中充当“冷备”，不能缓解读压力，当然可以通过SDK的合理设计来提高Slave资源的利用率。

Key批量操作限制，如使用mset、mget目前只支持具有相同slot值的Key执行批量操作。对于映射为不同slot值的Key由于Keys不支持跨slot查询，所以执行mset、mget等操作支持不友好。

Key事务操作支持有限，只支持多key在同一节点上的事务操作，当多个Key分布于不同的节点上时无法使用事务功能。

Key作为数据分区的最小粒度，不能将一个很大的键值对象如hash、list等映射到不同的节点。

不支持多数据库空间，单机下的redis可以支持到16个数据库，集群模式下只能使用1个数据库空间，即db0。

复制结构只支持一层，从节点只能复制主节点，不支持嵌套树状复制结构。

避免产生hot-key，导致主库节点成为系统的短板。

避免产生big-key，导致网卡撑爆、慢查询等。

重试时间应该大于cluster-node-time时间。

Redis Cluster不建议使用pipeline和multi-keys操作，减少max redirect产生的场景。

4.分而治之-Codis（可选）
在Redis Cluster广泛使用之前，大型公司有Redis在线扩容需求，Codis在这样的市场机遇下发展起来了。Codis是一个中间件，和Redis一样使用Redis协议对外提供服务，当客户端向Codis发送指令时，Codis负责将指令转发到后端的Redis实例来执行

Codis上连接的所有Redis实例构成一个Redis集群，当集群空间不足时，可以通过动态的增加Redis实例来实现扩容的需求。

Codis是无状态的，每个节点都是对等的，可以启动多个Codis实例，供客户端使用，增加整体的QPS需求，任何一个Codis节点挂掉，不影响其他节点继续提供服务。

5.我司Redis集群架构

MS+ZK+Sentinel
DBA的Redis 是支持高可用的，整个Redis的高可用由以下几部分组成

我司

1、Redis原生主从，至少是一主一从，可以一主多从，只有主提供读写服务，从只用作高可用备份，不提供任何服务

2、Zookeeper: 对于Sedis2，Sedis3 zk 在这里主要是集群配置变更后通知客户端，而Sedis1 ZK的作用是配置信息存储 + 切换通知

3、配置中心DB：线上Reids集群中Sedis2，Sedis3 的主库ip端口，还有分区信息都存储在配置中心db中当发生切换后会更新配置中心db

4、哨兵：采用Redis原生哨兵，负责Redis主从的切换，当发生切换之后对于Sedis1 只更新zk， Sedis2和Sedis3 需要更新配置中心DB和zk

客户端的实现:

当客户端需要根据指定的namespace建立连接时，会先去zk中查找 /config_addr 这个路径，这个路径下存放的是配置中心的ip+port （配置中心DB采用的是PXC架构，一共有5个实例），这个时候客户端会随机选择一个数据库实例，根据namespace去查询namespace的配置，然后根据查询到的配置信息建立连接。同时会启动两个线程(高版本的客户端才会有两个线程），一个用于监听zk的地址的变化（对于每一个namespace 在zk中都会有/redis/namespace 这么一个路径），如果配置发生变化，会更新这个地址的值，这个时候客户端就会感知到配置变化，就会去配置中心获取新的配置，然后建立新的连接。同时为了防止zk通知失败，客户端还会启动另外一个线程（只有高版本的会有这个线程，低版本的只监听zk），每隔10s去轮训配置中心的配置信息，如果发现配置中心的配置和本地缓存的不一样，那么就会使用新的配置建立连接。

redis高可用

猜你喜欢

热点阅读