阿里云ack集群升级,前置检查失败排障
2023-05-07 本文已影响0人
彩色的炮灰
背景:阿里云ack集群想要升级版本,由 1.20.11-aliyun.1升级到1.22.15-aliyun.1,首先进行前置检查,提示错误如下:
![](https://img.haomeiwen.com/i26090942/795029c403e67677.png)
解决思路
1、看到这个问题,我首先去命名空间(kube-system)查看这三个组件的状态,看看是不是有的master节点运行了2个pod。但是检查结果各个组件的pod都是正常的。如下图:
![](https://img.haomeiwen.com/i26090942/5261ee00bed3ede1.png)
- 按照上面的方法查看3个组件,一切正常。
2、然后就是登陆3个节点,各种查看配置,各种查看原因,具体细节不表。
3、然后在查看到 manifest 目录的时候,然后结合前置检查报错,感觉问题可能就是这里:
![](https://img.haomeiwen.com/i26090942/8009c3d6119750fa.png)
- 如上图所示,在 /etc/kubernetes/manifests 目录下有两个 kube-scheduler.yaml文件,虽然一个是yaml。一个是bak。但是阿里云前置检查的时候大概率是通过名字+通配符来做的判断,故而我们只需将bak先移动到其他目录,然后再次进行前置检查即可。
4、按照上述方法,我再次执行前置检查,发现一起正常。
![](https://img.haomeiwen.com/i26090942/2436668f3e2f90f2.png)