Uk8s集群Master节点配置变更操作文档

2021-11-09 本文已影响0人行者深蓝

操作过程概述

集群master节点操作前准备工作，对集群健康状态，集群服务，集群Etcd数据备份，评估选定操作窗口期
在Uk8s集群控制台确认Matser节点主机ID，按照顺序对Matser节点进行配置变更，
变更后需手动启动主机，并对集群做状态检查，确认一切正确后，顺次操作所有Matser节点
所有操作完毕后，对集群状态确认，对变更后的集群Matser节点配置进行确认，
1. 确认集群状态正常后，变更完成；
2. 如果检查集群状态异常，遇到无法修复的错误，可以按照预定回滚方案，恢复etcd数据
一般情况下，按照步骤1-步骤4，集群Master变更只会带来K8s APIserver请求延迟的略微增加，影响时间等同操作时间平局5-10分钟左右，如果集群Master负载较高，期望更加平滑的方式变更，可以调整Matser节点配置变更顺序：
1. 确认etcd leader 所在Master节点，
2. 先操作两台非 etcd leader所在Master节点
3. 然后手动操作将 etcd leader 切换至已完成变更的Master节点
4. 最后操作原 etcd leader 所在Master节点

准备工作

操作步骤概述

1 Master节点配置变更前，建议检查集群状态，在集群管理页面，点击 kubectl 进行操作
2 检查集群核心组件运行状态：kubectl get cs 返回如下类似结果为正常状态

[root@10-10-114-109 ~]# kubectl get cs
    Warning: v1 ComponentStatus is deprecated in v1.19+
    NAME                 STATUS    MESSAGE             ERROR
    controller-manager   Healthy   ok                  
    scheduler            Healthy   ok                  
    etcd-0               Healthy   {"health":"true"}   
    etcd-2               Healthy   {"health":"true"}   
    etcd-1               Healthy   {"health":"true"} </pre>

# kubectl get nodes
    NAME            STATUS                     ROLES    AGE    VERSION
    10.10.114.109   Ready,SchedulingDisabled   master   6h5m   v1.20.6
    10.10.188.198   Ready                      <none>   6h4m   v1.20.6
    10.10.220.87    Ready,SchedulingDisabled   master   6h5m   v1.20.6
    10.10.88.202    Ready                      <none>   6h5m   v1.20.6
    10.10.89.5      Ready,SchedulingDisabled   master   6h5m   v1.20.6

3 检查集群节点node运行状态：kubectl get nodes，返回如何类似结果为正常状态
4 将要操作的Uk8s集群 etcd进行备份，选择UK8S集群->应用中心->Etcd备份，开启备份，并确认集群etcd 备份成功
5 变更操作窗口期选择，理论上高可用K8S集群master节点升级逐台升级操作对运行在Node节点的业务应用无任何感知，为了避免任何意外因数导致的影响，如果设计生产集群，建议选择业务低谷期，以避开应用发布时间段

变更操作步骤

选择集群，将会看到如下命名规则的节点 uk8s-xxxxxx-m-a， uk8s-xxxxxx-m-b，uk8s-xxxxxx-m-c 三个节点，其中包含m-a，m-b，m-c字段的为master节点，

顺序操作Master节点，m-a，m-b，m-c进行变更

在集群标签页面，选择uk8s-xxxxxx-m-a，点击进入主机详情页
在 uk8s-xxxxxx-m-a 主机详情页面，配置信息 > 变更配置页面> 继续，完成主机配置变更
主机配置变更后，默认是关机状态，需要手动开机，在当前主机详情页面，点击启动按钮
操作完成大约 2-3分钟后，Master节点会完成就绪状态，在集群管理页面，点击 kubectl 执行命令，对集群节点，核心组件运行状态做检查确认：
返回如下类似结果为正常状态

kubectl get nodes
NAME            STATUS                     ROLES    AGE    VERSION
10.10.114.109   Ready,SchedulingDisabled   master   6h5m   v1.20.6
10.10.188.198   Ready                      <none>   6h4m   v1.20.6
10.10.220.87    Ready,SchedulingDisabled   master   6h5m   v1.20.6
10.10.88.202    Ready                      <none>   6h5m   v1.20.6
10.10.89.5      Ready,SchedulingDisabled   master   6h5m   v1.20.6</pre>

# kubectl get cs
Warning: v1 ComponentStatus is deprecated in v1.19+
NAME                 STATUS    MESSAGE             ERROR
controller-manager   Healthy   ok                  
scheduler            Healthy   ok                  
etcd-0               Healthy   {"health":"true"}   
etcd-2               Healthy   {"health":"true"}   
etcd-1               Healthy   {"health":"true"} </pre>

确认集群状态运行正常后，按照升级操作步骤依次操作其他节点，uk8s-xxxxxx-m-b，uk8s-xxxxxx-m-c 最后在集群详情页面，查看集群Master节点配置，节点配置信息同步到DB属于异步方式，操作完成后，大约5-10分钟后，在控制台可以看到变更后的Master节点主机配置，状态等信息

按照先操非 etcd leader 节点，后操作 etcd leader节点的顺序进行变更

首先确认 etcd leader 节点，在集群管理页面，点击 kubectl 进入终端
- 执行命令 kubectl get nodes | grep master 列出master节点，
- 执行命令 ssh 登录任意一台master节点，执行如下参考命令(需要替换对应集群的Master节点内网IP)：

ETCDCTL_API=3 etcdctl --cacert=/etc/kubernetes/ssl/ca.pem \
--cert=/etc/kubernetes/ssl/etcd.pem         \
--key=/etc/kubernetes/ssl/etcd-key.pem      \
--endpoints=https://10.10.114.109:2379,https://10.10.220.87:2379,https://10.10.89.5:2379  \
-w table  endpoint status

show etcd leader

根据返回结果，确认etcd leader 节点，对非 etcd leader 节点进行升级操作，操作步骤同 “ 顺序操作Master节点，m-a，m-b，m-c进行变更” 一节
选择一个当前的非 etcd leader节点 ID 执行命令，切换 etcd leader切换，执行参考命令(需要替换对应集群的Master节点内网IP)：

ETCDCTL_API=3 etcdctl --cacert=/etc/kubernetes/ssl/ca.pem \
              --cert=/etc/kubernetes/ssl/etcd.pem         \
              --key=/etc/kubernetes/ssl/etcd-key.pem      \
              --endpoints=https://10.10.114.109:2379,https://10.10.220.87:2379,https://10.10.89.5:2379  \
              move-leader 3b911c741199616f

show etcd leader

切换成功后，对原 etcd leader 所在Master节点进行升级操作，操作步骤同 “ 顺序操作Master节点，m-a，m-b，m-c进行变更” 一节
最后对集群状态进行检查确认，完成变更

影响范围

逐台升级Master节点对运行在Node节点的POD无任何影响
升级过程对K8S核心组件ApiServer延迟略增加，整体影响时间大约5-10分钟，等同于升级操作时间

顺序操作Master节点

先从节点后主节点操作

回滚操作

如果因为升级Master节点，出现etcd数据同步等异常，恢复操作方式可参考文档
https://docs.ucloud.cn/uk8s/administercluster/etcd_backup