工作专题

Redis高可用解决方案

2017-03-02  本文已影响673人  钟大發

哨兵

哨兵是个基于redis HA解决方案,他支持redis 自身的主从角色替换,所以严格来说他其实只是个redis的主从监控服务,当主从角色关系发生变化后,由于IP 发生变化,仍然需要手动干预,当然同样可以通过脚本解决。

基本主从复制

redis 的主从复制主要有以下几点:

slaveof 10.1.1.1 7001 #指定主redis的ip以及端口
slave-serve-stale-data no # 当redis 从和主断开连接或者正在同步数据的时候,该选项为no的时候会提示无法写入,一般建议关闭,
slave-read-only yes #redis 从只读
Replication
role:master
connected_slaves:0
master_repl_offset:940
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0

从:

Replication
role:slave
master_host:10.1.99.163
master_port:7011
master_link_status:up
master_last_io_seconds_ago:3
master_sync_in_progress:0
slave_repl_offset:941
slave_priority:10
slave_read_only:1
connected_slaves:0
master_repl_offset:0
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:101
repl_backlog_histlen:1036

此时说明主从已经完成,可以通过set 插入数据进行检查。

配置哨兵

port 26379
dir "/usr/local/redis-sentine"#工作路径,注意路径不要和主重复
daemonize yes# 守护进程模式
protected-mode no #关闭保护模式
logfile "./sentinel.log"
sentinel monitor mymaster 10.1.99.163 7011 1 #哨兵监控的master,主从配置一样,这里只用输入redis主节点的ip/port和法定人数。
sentinel down-after-milliseconds mymaster 15 # master或slave多长时间(默认30秒)不能使用后标记为s_down状态。
sentinel failover-timeout mymaster 18000 #若sentinel在该配置值内未能完成failover操作(即故障时master/slave自动切换),则认为本次failover失败。
sentinel auth-pass mymaster 123456 
sentinel parallel-syncs mymaster 1 #指定了在执行故障转移时, 最多可以有多少个从服务器同时对新的主服务器进行同步

启动sentinel:

root@:src# ./redis-sentinel ../sentinel.conf &

注意此时的从redis 配置上有slaveof 10.1.99.163 7011 这一行,sentinel 上也有sentinel monitor mymaster 10.1.99.163 7011 1 这一行。
测试,kill 掉主redis 的进程,然后等待15s。哨兵会重新推选出新的master:

4973:X 03 Mar 02:10:26.397 # +odown master mymaster 10.1.99.163 7011 #quorum 1/1
4973:X 03 Mar 02:10:26.398 # +new-epoch 1
4973:X 03 Mar 02:10:26.398 # +try-failover master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.421 # +vote-for-leader b1e8393b52407207cd8c228bef46638d31bb3448 1
4973:X 03 Mar 02:10:26.421 # +elected-leader master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.422 # +failover-state-select-slave master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.474 # +selected-slave slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.475 * +failover-state-send-slaveof-noone slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:26.534 * +failover-state-wait-promotion slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.449 # +promoted-slave slave 10.1.99.164:7012 10.1.99.164 7012 @ mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.450 # +failover-state-reconf-slaves master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.495 # +failover-end master mymaster 10.1.99.163 7011
4973:X 03 Mar 02:10:27.495 # +switch-master mymaster 10.1.99.163 7011 10.1.99.164 7012
4973:X 03 Mar 02:10:27.497 * +slave slave 10.1.99.163:7011 10.1.99.163 7011 @ mymaster 10.1.99.164 7012

登录原从查看:

#Replication
role:master
connected_slaves:0
master_repl_offset:0
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
#CPU
used_cpu_sys:0.56
used_cpu_user:0.20
used_cpu_sys_children:0.00
used_cpu_user_children:0.00
#Cluster
cluster_enabled:0
# Keyspace
10.1.99.164:7012> set barney 123
OK
10.1.99.164:7012> 

原从变为主了,且可写了。之后查看从的配置文件,发现之前的slaveof 配置没有了,再看所有哨兵的配置,sentinel monitor mymaster 10.1.99.164 7012 1 自己变为了从库的信息。
然后重启原master,发现info 变为slave 了,可以再手动切换回来。切换后等一会就看到sentinel 的配置会在再次发生改变。

主从切换

一般都是在服务的代码里会做一个对redis 状态的检测,如果timeout 则尝试连接从,除此之外可以用sentinel.conf 里的 sentinel notification-script <master-name> <script-path>配置,当主从角色替换的时候会触发这个脚本的通知,告知项目或者运维人员主从的问题。说到底,redis 哨兵机制只是一个监控项目,比较适合于不需要集群规模的小规模计算。

上一篇下一篇

猜你喜欢

热点阅读