故障复盘
2023-10-08 本文已影响0人
自天佑之吉无不利
故障复盘需要多问几个为什么,提出这些问题的大致逻辑是这样的。
第一,优化故障获知和故障定位的时间。
从故障发生到我们知道的时间是否可以优化得更短?
定位故障的时间是否可以更短?
有哪些地方可以做到自动化?
第二,优化故障的处理方式。
故障处理时的判断和章法是否科学,是否正确?
故障处理时的信息是否全透明?
故障处理时人员是否安排得当?
第三,优化开发过程中的问题。
Code Review 和测试中的问题和优化点。
软件架构和设计是否可以更好?
对于技术欠债或是相关的隐患问题是否被记录下来,是否有风险计划?
第四,优化团队能力。
如何提高团队的技术能力?
如何让团队有严谨的工程意识?
具体采取什么样的整改方案会和这些为什么有很大关系。
总之还是那句话,解决一个故障可以通过技术和管理两方面的方法。如果你喜欢技术,是个技术范,你就更多地用技术手段;如果你喜欢管理,那么你就会使用更多的管理手段。我是一个技术人员,我更愿意使用技术手段。
找到问题的本质
1.举一反三解决当下的故障。为自己赢得更多的时间。
2.简化复杂、不合理的技术架构、流程和组织。你不可能在一个复杂的环境下根本地解决问题。全面改善和优化整个系统,包括组织。
3.解决问题的根本方法是改善和调整整体结构。而只有简单优雅的东西才有被改善和优化的可能。
此文章为10月Day5学习笔记,内容来源于极客时间《左耳听风》,强烈推荐该课程