分布式

redis 哨兵机制

2019-03-14  本文已影响0人  喧嚣城外
sentinal(哨兵)

哨兵是redis集群架构中非常重要的一个组件,主要功能如下:

(1)集群监控,负责监控redis master 和slave进程是否正常工作。
(2)消息通知,如果某个redis实例有故障,那么哨兵负责发送消息作为报警通知给管理员。
(3)故障转移,如果master node挂掉了,会自动转移到slave node上。
(4)配置中心,如果故障转移发生了,通知client客户端新的master地址。


哨兵本身也是分布式的,作为一个哨兵集群去运行的,相互协同工作

(1)故障转移时,判断一个master node宕机了,需要大部分哨兵都同意才行,涉及到分布式选举问题。
(2)及时部分哨兵节点挂掉了,哨兵集群还是能正常工作的,因为如果一个作为高可用机制重要组成部分的故障转移系统本身就是单点,那么就不靠谱。


哨兵的核心知识

redis哨兵主备切换的数据丢失问题

两种丢失情况:


解决异步复制和脑裂导致的数据丢失

min-slaves-to-write 1
min-slaves-max-lag 10
要求至少有1个slave,数据复制和同步的延迟不能超过10秒
如果说一旦所有slave,数据复制和同步的延迟都超过了10秒钟,那么这个时候,master就不会再接收任何请求了。
(1)减少异步复制的数据丢失
有了min-slaves-max-lag这个配置,就可以确保说,一旦slave复制数据和ack延时太长,就认为可能master宕机后损失的数据太多了,那么就拒绝写请求,这样可以把master宕机时由于部分数据未同步到slave导致的数据丢失降低的可控范围内
(2)减少脑裂的数据丢失
如果一个master出现了脑裂,跟其他slave丢了连接,那么上面两个配置可以确保说,如果不能继续给指定数量的slave发送数据,而且slave超过10秒没有给自己ack消息,那么就直接拒绝客户端的写请求
这样脑裂后的旧master就不会接受client的新数据,也就避免了数据丢失
上面的配置就确保了,如果跟任何一个slave丢了连接,在10秒后发现没有slave给自己ack,那么就拒绝新的写请求
因此在脑裂场景下,最多就丢失10秒的数据


集群脑裂导致的数据丢失问题.png 脑裂导致数据丢失的问题如何降低损失.png 异步复制导致的数据丢失问题.png 异步复制导致数据丢失如何降低损失.png
上一篇 下一篇

猜你喜欢

热点阅读