TiDB 集群 IP 变更快速指南(离线变更)

2019-11-01  本文已影响0人  Kassadar

前言

TiDB 集群 IP 变更可以通过先扩容再缩容的方式,实现在线的集群 IP 的迁移。

此文档为离线变更操作手册。

收集需要的信息

新建 PD 集群后,现有的信息会丢失,因此需要些备份这些信息。

获取 PD 中的设置
.../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config show all > pd.txt

其中常见的调整参数有 leader-scheduler-limit、region-scheduler-limit、leader-scheduler-limit 等。
如果没有使用 pd-ctl 修改过默认配置,此步骤可跳过。

获取 Cluster ID

一般在 PD,TiKV 或 TiDB 的日志中都可以获取 Cluster ID。可以从中控机使用 ansible ad-hoc,也可以直接去服务器上翻日志。

从 pd 日志获取 [info] cluster id

ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd.log | grep "init cluster id" | head -10'
10.0.1.13 | CHANGED | rc=0 >>
[2019/10/14 10:35:38.880 +00:00] [INFO] [server.go:212] ["init cluster id"] [cluster-id=6747551640615446306]
……
获取 Alloc ID(TiKV StoreID)

在指定 alloc-id 时需指定一个比当前最大的 Alloc ID 更大的值。可以从中控机使用 ansible ad-hoc,也可以直接去服务器上翻日志。

从 pd 日志获取 [info] allocates id

ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd* | grep "allocates" | head -10'
10.0.1.13 | CHANGED | rc=0 >>
[2019/10/15 03:15:05.824 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=3000]
[2019/10/15 08:55:01.275 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=4000]
……

集群 IP 地址变更

停止集群

停止现有集群

ansible-playbook stop.yml
变更集群服务器 ip 地址

编辑 inevntory.ini 文件

编辑 inventory.ini 文件,修改 host ip

cp inventory.ini inventory.ini.bak
vi inventory.ini
清除之前的 PD 数据

备份并清理原有 PD Server 的数据

ansible -i inventory.ini pd_servers -m shell -a 'mv {{deploy_dir}}/data.pd/ {{deploy_dir}}/data.pd.bak/'
ansible -i inventory.ini pd_servers -m shell -a 'rm -rf {{deploy_dir}}/data.pd'
部署新 IP 地址的集群
ansible-playbook deploy.yml
恢复 PD 设置
.../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config set xxx xx

PD Recover 恢复旧集群信息

启动新 PD 集群
ansible-playbook start.yml --tags=pd
使用 pd-recover

使用 pd-recover 按照旧的 -cluster-id、-alloc-id 恢复 pd 集群信息

./pd-recover -endpoints http://{pdip}:2379 -cluster-id 6747551640615446306 -alloc-id 10000
重启 pd 集群
ansible-playbook rolling_update.yml --tags=pd

启动集群

启动剩余服务

ansible-playbook start.yml --skip-tags=pd

滚动监控

更新监控信息

ansible-playbook rolling_update_monitor.yml --tags=prometheus

常见问题

获取 Cluster ID 时发现有多个

新建 PD 集群时,会生成新的 Cluster ID。可以通过日志判断旧集群的 Cluster ID。

执行 pd-recover 时 dial tcp 10.0.1.13:2379: connect: connection refused

执行 pd-recover 时需要 pd 提供服务,请先部署并启动 pd 集群。

上一篇下一篇

猜你喜欢

热点阅读