TiDB 集群 IP 变更快速指南（离线变更）

2019-11-01 本文已影响0人 Kassadar

前言

TiDB 集群 IP 变更可以通过先扩容再缩容的方式，实现在线的集群 IP 的迁移。

此文档为离线变更操作手册。

TiDB Server 作为一个无状态服务。所以直接更换 IP 即可，同时修改 PD Server 地址。
TiKV Server 作为一个 Mutil Raft Group，信息会在 PD Server 中注册，所以直接更换 IP 即可，同时修改 PD Server 地址。
PD Server 作为一个元数据管理节点，更换 IP 后需要新建 PD 集群，然后进行 PD Recover 操作，恢复原有 PD 集群信息。

收集需要的信息

新建 PD 集群后，现有的信息会丢失，因此需要些备份这些信息。

获取 PD 中的设置

.../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config show all > pd.txt

其中常见的调整参数有 leader-scheduler-limit、region-scheduler-limit、leader-scheduler-limit 等。
如果没有使用 pd-ctl 修改过默认配置，此步骤可跳过。

获取 Cluster ID

一般在 PD，TiKV 或 TiDB 的日志中都可以获取 Cluster ID。可以从中控机使用 ansible ad-hoc，也可以直接去服务器上翻日志。

从 pd 日志获取 [info] cluster id

ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd.log | grep "init cluster id" | head -10'

10.0.1.13 | CHANGED | rc=0 >>
[2019/10/14 10:35:38.880 +00:00] [INFO] [server.go:212] ["init cluster id"] [cluster-id=6747551640615446306]
……

获取 Alloc ID（TiKV StoreID）

在指定 alloc-id 时需指定一个比当前最大的 Alloc ID 更大的值。可以从中控机使用 ansible ad-hoc，也可以直接去服务器上翻日志。

从 pd 日志获取 [info] allocates id

ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd* | grep "allocates" | head -10'

10.0.1.13 | CHANGED | rc=0 >>
[2019/10/15 03:15:05.824 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=3000]
[2019/10/15 08:55:01.275 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=4000]
……

集群 IP 地址变更

停止集群

停止现有集群

ansible-playbook stop.yml

变更集群服务器 ip 地址

略

编辑 inevntory.ini 文件

编辑 inventory.ini 文件，修改 host ip

cp inventory.ini inventory.ini.bak

vi inventory.ini

清除之前的 PD 数据

备份并清理原有 PD Server 的数据

ansible -i inventory.ini pd_servers -m shell -a 'mv {{deploy_dir}}/data.pd/ {{deploy_dir}}/data.pd.bak/'

ansible -i inventory.ini pd_servers -m shell -a 'rm -rf {{deploy_dir}}/data.pd'

部署新 IP 地址的集群

ansible-playbook deploy.yml

恢复 PD 设置

.../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config set xxx xx

PD Recover 恢复旧集群信息

启动新 PD 集群

ansible-playbook start.yml --tags=pd

使用 pd-recover

使用 pd-recover 按照旧的 -cluster-id、-alloc-id 恢复 pd 集群信息

./pd-recover -endpoints http://{pdip}:2379 -cluster-id 6747551640615446306 -alloc-id 10000

重启 pd 集群

ansible-playbook rolling_update.yml --tags=pd

启动集群

启动剩余服务

ansible-playbook start.yml --skip-tags=pd

滚动监控

更新监控信息

ansible-playbook rolling_update_monitor.yml --tags=prometheus

常见问题

获取 Cluster ID 时发现有多个

新建 PD 集群时，会生成新的 Cluster ID。可以通过日志判断旧集群的 Cluster ID。

执行 pd-recover 时 dial tcp 10.0.1.13:2379: connect: connection refused

执行 pd-recover 时需要 pd 提供服务，请先部署并启动 pd 集群。