E9000服务器网络故障应急恢复

2022-08-08  本文已影响0人  robot_test_boy

转载自华为服务支持的E9000服务器网络故障应急恢复专题

故障应急恢复方案启动条件

当发生自然灾害、事故灾难、传输中断等突发事件或因周边网络设备故障、设备自身故障导致E9000服务器所承载业务大面积中断或拥塞、设备板件出现频繁倒换复位、客户收到大规模用户投诉时,启动本应急方案进行调整。

本应急方案通过X板斧动作进行事故的快速恢复,以常见事故为分析案例,根据总结的常见场景提供对应的事故快速恢复思路。执行人员应参考相关思路,根据现场实际情况做出适当调整,快速恢复事故。

注意:

本文中提到的所有操作步骤需要得到客户确认许可后方可执行。

故障应急恢复方案的方案设计人员与执行人员应在平时熟悉应急方案实施流程,提前准备各种情况下的应急操作脚本,尽可能提高应急技能和响应速度。

故障应急恢复处理流程

故障应急恢复方案总体思路

影响范围确认

当确认需要启动应急方案时,首先需要了解当前故障影响的范围及由此带来的风险(例如其E9000服务器承载的所有业务受到影响、部分业务受到影响、还是特定业务受到影响;是影响业务的全部业务、还是部分业务受到影响等)并进行排查。

业务承载调整恢复动作实施

接到事故通报后首先评估是否可以进行业务承载调整恢复动作,即是否可以将故障设备所承载业务调整到其他正常设备上承载,并隔离故障设备,同时做好启用备件进行故障恢复的相关准备工作。

近期操作确认

重大事故的产生原因中,有一部分是由于用户对服务器上的网卡、交换模块或者用户网络中的其它网络设备的误操作或者由操作触发了某设备的隐含缺陷。因此对事故发生前的设备操作以及周边的操作确认,是重大事故定位处理的优先环节

需要关注的操作内容包括但不限于:配置变更、设备板件更换、设备License更换、软件版本升级、软件补丁实施、设备新功能开启和承载业务变迁等。对非软件升级类的可疑操作需要立即实施回退措施来紧急尝试恢复业务。由于软件升级回退操作较为复杂,时间较长,如果判断错误反而影响业务恢复时长,因此对软件升级类的可疑操作建议联系华为公司总部研发判断核实后再做操作。

告警确认

重大事故发生后,有可能从设备异常告警上发现定位处理方向。需要注意的是,当多个设备同时上报告警时,需要分清哪个告警是最根本原因。

尝试恢复动作选择

当事故处理方向基本确认后,如有明确的怀疑方向,则可开始进行尝试恢复动作。如果可明确或疑似非E9000服务器设备本身造成的故障,则需立即联系客户或产品的专业维护人员进行紧急排查故障。

如在操作确认过程中发现可疑操作,立即进行操作回退处理。对软件升级类的可疑操作建议联系华为公司总部研发判断核实后再做操作。

对于一些E9000服务器周边设备故障的问题,有时可通过一些操作隔离问题设备来达到规避的目的,例如,网络路径倒换。

如果事故发生后未能发现异常操作、无设备上报异常告警、或者通过常用故障定位指导也无法明确故障并进行恢复,则需要进行设备信息收集,及时反馈相关信息到华为公司总部研发进行分析,并根据分析结果,必要时在华为公司总部研发协助下进行相关单板的倒换操作尝试恢复。

业务中断应急恢复流程图

常用故障定位方法

检查交换模块链路是否异常

检查交换模块端口是否异常

网络环路判断和处理

检查堆叠系统是否产生堆叠分裂

使用流量统计判断网络丢包位置

上一篇下一篇

猜你喜欢

热点阅读