Redis架构知识梳理
Redis架构知识梳理
作者写的很好,自己懒得写。按照作者的思路梳理了一遍
引用原文入口:https://zhuanlan.zhihu.com/p/60632927
引用原文入口:https://www.cnblogs.com/51life/p/10233340.html
redis save和bgsave区别
Redis持久化使用的是RDB快照模式,Redis在一定的时间间隔会进行生成RDB文件持久化数据,手动进行持久化的话可以使用save或者bgsave
Save:该命令将在 redis 安装目录中创建dump.rdb文件。这个命令会调用 rdbSave函数 ,函数执行期间会阻塞 Redis 主进程,阻塞期间,服务器不处理客户端的请求。谨慎使用
bgsave:客户端可以通过 LASTSAVE 命令查看相关信息,判断 BGSAVE 命令是否执行成功。
bgsave 命令执行之后立即返回 OK ,然后 Redis fork 出一个新子进程,原来的 Redis 进程(父进程)继续处理客户端请求,而子进程则负责将数据保存到磁盘,然后退出。
BGSAVE方式比较适合线上的维护操作。
1.主从复制
-
从服务器连接主服务器,发送SYNC命令;
-
主服务器接收到SYNC命名后,开始执行BGSAVE命令生成RDB文件并使用缓冲区记录此后执行的所有写命令;
-
主服务器BGSAVE执行完后,向所有从服务器发送快照文件,并在发送期间继续记录被执行的写命令;
-
从服务器收到快照文件后丢弃所有旧数据,载入收到的快照;
-
主服务器快照发送完毕后开始向从服务器发送缓冲区中的写命令;
-
从服务器完成对快照的载入,开始接收命令请求,并执行来自主服务器缓冲区的写命令;(从服务器初始化完成)
-
主服务器每执行一个写命令就会向从服务器发送相同的写命令,从服务器接收并执行收到的写命令(从服务器初始化完成后的操作)
优点:
-
支持主从复制,主机会自动将数据同步到从机,可以进行读写分离
-
为了分载Master的读操作压力,Slave服务器可以为客户端提供只读操作的服务,写服务仍然必须由Master来完成
-
Slave同样可以接受其它Slaves的连接和同步请求,这样可以有效的分载Master的同步压力。
-
Master Server是以非阻塞的方式为Slaves提供服务。所以在Master-Slave同步期间,客户端仍然可以提交查询或修改请求。
-
Slave Server同样是以非阻塞的方式完成数据同步。在同步期间,如果有客户端提交查询请求,Redis则返回同步之前的数据
缺点:
-
Redis不具备自动容错和恢复功能,主机从机的宕机都会导致前端部分读写请求失败,需要等待机器重启或者手动切换前端的IP才能恢复。
-
主机宕机,宕机前有部分数据未能及时同步到从机,切换IP后还会引入数据不一致的问题,降低了系统的可用性。
-
Redis较难支持在线扩容,在集群容量达到上限时在线扩容会变得很复杂。
2.哨兵模式
当主服务器中断服务后,可以将一个从服务器升级为主服务器,以便继续提供服务,但是这个过程需要人工手动来操作。 为此,Redis 2.8中提供了哨兵工具来实现自动化的系统监控和故障恢复功能。
哨兵的作用就是监控Redis系统的运行状况。它的功能包括以下两个。
(1)监控主服务器和从服务器是否正常运行。 (2)主服务器出现故障时自动将从服务器转换为主服务器。
哨兵的工作方式:
-
每个Sentinel(哨兵)进程以每秒钟一次的频率向整个集群中的Master主服务器,Slave从服务器以及其他Sentinel(哨兵)进程发送一个 PING 命令。
-
如果一个实例(instance)距离最后一次有效回复 PING 命令的时间超过 down-after-milliseconds 选项所指定的值, 则这个实例会被 Sentinel(哨兵)进程标记为主观下线(SDOWN)
-
如果一个Master主服务器被标记为主观下线(SDOWN),则正在监视这个Master主服务器的所有 Sentinel(哨兵)进程要以每秒一次的频率确认Master主服务器的确进入了主观下线状态
-
当有足够数量的 Sentinel(哨兵)进程(大于等于配置文件指定的值)在指定的时间范围内确认Master主服务器进入了主观下线状态(SDOWN), 则Master主服务器会被标记为客观下线(ODOWN)
-
在一般情况下, 每个 Sentinel(哨兵)进程会以每 10 秒一次的频率向集群中的所有Master主服务器、Slave从服务器发送 INFO 命令。
-
当Master主服务器被 Sentinel(哨兵)进程标记为客观下线(ODOWN)时,Sentinel(哨兵)进程向下线的 Master主服务器的所有 Slave从服务器发送 INFO 命令的频率会从 10 秒一次改为每秒一次。
-
若没有足够数量的 Sentinel(哨兵)进程同意 Master主服务器下线, Master主服务器的客观下线状态就会被移除。若 Master主服务器重新向 Sentinel(哨兵)进程发送 PING 命令返回有效回复,Master主服务器的主观下线状态就会被移除。
哨兵模式的优缺点
优点:
-
哨兵模式是基于主从模式的,所有主从的优点,哨兵模式都具有。
-
主从可以自动切换,系统更健壮,可用性更高。
缺点:
- Redis较难支持在线扩容,在集群容量达到上限时在线扩容会变得很复杂。
Redis Sentinel 哨兵-选举领头Sentinel和故障转移
选举领头Sentinel
当一个Master服务器客观下线后,监控这个Master服务器的所有Sentinel将会选举出一个领头Sentinel。并由领头Sentinel对客观下线的Master进行故障转移。
选举领头Sentinel的规则和方法
- 所有监控客观下线Master的Sentinel都有可能成为领头Sentinel。
- 每次进行领头Sentinel选举之后,不论是否选举成功,所有Sentinel的配置纪元(configuration epoch)的值都会自动增加一次。
- 在一个配置纪元里面,所有Sentinel都有一次将某个Sentinel设置为局部领头Sentinel的机会,并且局部领头Sentinel一旦设置,在这个配置纪元里面将不能再更改。
- 监视Master客观下线的所有在线Sentinel都有要求其它Sentinel将自己设置为局部领头Sentinel的机会。
- 当一个Sentinel(源Sentinel)向另一个Sentinel(目标Sentinel)发送SENTINEL is-master-down-by-addr命令,并且命令中的runid参数不是“.”符号而是当前Sentinel的运行ID时,这表示当前Sentinel要求目标Sentinel将自己设置为领头Sentinel。
- Sentinel设置局部领头Sentinel的规则是先到先得。即最先向目标Sentinel发送设置要求的Sentinel将会成为局部领头Sentinel,之后接受到的请求都会被拒绝。
- 目标Sentinel接收到SENTINEL is-master-down-by-addr命令后,将向源Sentinel返回一条命令回复,回复中的leader_runid参数和leader_epoch参数分别记录了目标Sentinel的局部领头Sentinel的运行ID和配置纪元。
- 源Sentinel在接收到目标Sentinel返回的命令回复之后,会检查回复中leader_epoch参数的值和自己的配置纪元是否相同,如果相同的话,那么源Sentinel继续取出回复中的leader_runid参数,如果leader_runid参数的值和源Sentinel的运行ID一直,那么表示目标Sentinel将源Sentinel设置成了局部领头Sentinel。
- 如果有某个Sentinel被半数以上的Sentinel设置成了局部领头Sentinel,那么这个Sentinel称为领头Sentinel。
- 领头Sentinel的产生需要半数以上的Sentinel支持,并且每个Sentinel在每个配置纪元里面只能设置一次局部Sentinel,所以在一个配置纪元里面,只会出现一个领头Sentinel。
- 如果在给定时限内,没有一个Sentinel被选举为领头Sentinel,那么各个Sentinel将在一段时间之后再次进行选举,知道选出领头Sentinel为止。
## 故障转移 故障转移包括以下三步: 1. 在已下线的Master主机下面挑选一个Slave将其转换为主服务器。 2. 让其余所有Slave服务器复制新的Master服务器。 3. 让已下线的Master服务器变成新的Master服务器的Slave。当已下线的服务器在此上线后将复新的Master的数据。 ### 选举新的主服务器 领头Sentinel会在所有Slave中选出新的Master,发送SLAVEOF no one命令,将这个服务器确定为主服务器。 领头Sentinel会将已下线Master的所有从服务器报错在一个列表中,按照规则进行挑选。 1. 删除列表中所有处于下线或者短线状态的Slave。 2. 删除列表中所有最近5s内没有回复过领头Sentinel的INFO命令的Slave。 3. 删除所有与下线Master连接断开超过down-after-milliseconds * 10毫秒的Slave。 4. 领头Sentinel将根据Slave优先级,对列表中剩余的Slave进行排序,并选出其中优先级最高的Slave。如果有多个具有相同优先级的Slave,那么领头Sentinel将按照Slave复制偏移量,选出其中偏移量最大的Slave。如果有多个优先级最高,偏移量最大的Slave,那么根据运行ID最小原则选出新的Master。 确定新的Master之后,领头Sentinel会以每秒一次的频率向新的Master发送SLAVEOF no one命令,当得到确切的回复role由slave变为master之后,当前服务器顺利升级为Master服务器。 ### 修改从服务器的复制目标 当选出新的Master服务器后,领头Sentinel会让之前下线Master的Slave发送SLAVEOF命令,让它们复制新的Master。 ### 将旧的Master变成Slave 当已下线的Master重新上线后,领头Sentinel会向此服务器发送SLAVEOF命令,将当前服务器变成新的Master的Slave。
3.Redis-Cluster集群
redis的哨兵模式基本已经可以实现高可用,读写分离 ,但是在这种模式下每台redis服务器都存储相同的数据,很浪费内存,所以在redis3.0上加入了cluster模式,实现的redis的分布式存储,也就是说每台redis节点上存储不同的内容。
Redis-Cluster采用无中心结构,它的特点如下:
-
所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽。
-
节点的fail是通过集群中超过半数的节点检测失效时才生效。
-
客户端与redis节点直连,不需要中间代理层.客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。
工作方式:
在redis的每一个节点上,都有这么两个东西,一个是插槽(slot),它的的取值范围是:0-16383。还有一个就是cluster,可以理解为是一个集群管理的插件。当我们的存取的key到达的时候,redis会根据crc16的算法得出一个结果,然后把结果对 16384 求余数,这样每个 key 都会对应一个编号在 0-16383 之间的哈希槽,通过这个值,去找到对应的插槽所对应的节点,然后直接自动跳转到这个对应的节点上进行存取操作。
为了保证高可用,redis-cluster集群引入了主从模式,一个主节点对应一个或者多个从节点,当主节点宕机的时候,就会启用从节点。当其它主节点ping一个主节点A时,如果半数以上的主节点与A通信超时,那么认为主节点A宕机了。如果主节点A和它的从节点A1都宕机了,那么该集群就无法再提供服务了。
业界缓存设计问题
-
缓存击穿
问题表现:redis中一个key长时间顶着并发查询的压力,当它缓存失效时,大量的直接请求并发打到了数据库。
解决方案
1.使用分布式排它锁: 这种思路比较简单,就是只让一个线程构建缓存,其他线程等待构建缓存的线程执行完,重新从缓存获取数据就可以了。
2.缓存时间设置为永不过期。然后把缓存时间存到value中,每次请求数据时判断下如果马上过期,新建线程异步的更新key的值。当然这样可能会出现用户展示的数据不一致问题,展示的是老数据。
【没有完美的解决方案,只有最合适】
-
缓存穿透
问题表现:正常的流程是请求查询一个数据,先找redis,redis不存在则去查找数据库,查到数据库有数据,则存入缓存病返回数据,无数据则直接返回空。。。缓存穿透就是大量的请求不存在的数据,对数据库造成压力,甚至压垮数据库。
解决方案:考虑空数据也入缓存,根据业务场景设置失效时间,缓存过期时间较短就好
-
缓存雪崩
问题表现:缓存在相近的时间内大量实效,落到数据库的请求产生压力波峰。比如在抢购的多个商品都在同一时间录入系统,缓存时间都是设置的30分钟,30分钟后这些商品短时间内都会缓存失效,访问量大的话就会有大量的数据请求打到数据库造成压力
解决方案:设置缓存失效的时间时,考虑增加随机性分散缓存实效的时间。
Redis如何保障缓存一致性
先更新数据库,再删除缓存。如果删除缓存操作失败,则会出现缓存中是老数据不一致的问题。所以为了避免这种情况,可以修改数据之前先删一次key。修改数据前后双删也无法保证B线程删了key再修改数据的时候,A线程查询key不存在又去库中查找并且放入缓存。这时候B线程修改完成之后删除key失败一样会有问题。理论上不会
我们无法保证双写的强一致性,只能选择最合适的方式。
如果非要使用队列进行修改数据查询数据来保证强一致性,势必会吞吐量造成很大的影响