记一次线上事故的复盘
2020-10-31 本文已影响0人
小盼盼_1
背景
上周周四0点上线的一个新功能,7点半本人发现有问题,知会产品及时调整策略。事故造成的影响为重复发奖了10笔,总计多发了10块钱左右。虽然造成的影响不大,但其中暴露出的问题需要反思,需要复盘。
暴露出的问题
1.从需求来看较简单,自己过于自信,没有细细追问开发的具体实现方式,以自己get的一些零碎的实现方式来进行验证
2.项目引入了自己不了解的系统,没有去问清楚系统的具体实现方式,错过了上线前发现问题的机会。实际测试过程中有覆盖到出问题的场景,但由于自己不清楚系统的工作原理,导致反馈问题给开发后,开发由于自身理解有误,反馈说修复了。回归验证时确实没有出现一样的场景,就误以为真修复了
3.项目的开发人员是新手开发,本身开发经验不足,自己没有考虑到这点,没有找开发对齐实现方式
4.项目上线时间紧张,一些页面展示的兼容性问题。实际测试过程遇到过,但觉得没有在多个机型上稳定复线,自己选择了忽略,导致线上收到用户反馈
总结反思
1.不管项目大小,开发人员是新手还是老手,一定要找开发对齐实现方式,清楚整个项目的数据流走向。
目前实现程度:大部分的项目已经是按照此种方式在做,但本次由于看项目小,心理上产生了懈怠。所谓生产无大小,要永远对生产怀有一颗敬畏之心
2.不熟悉的系统,如果需求有用到的时候,一定要自己找系统的负责人对齐系统的实现方式,不能仅听开发人员。
目前实现程度:已找系统负责人了解系统的具体实现方式
3.页面展示的兼容性问题要看是否在机器上可以稳定复现,有任何问题【逻辑类&页面类】一定要知会项目组成员,做到风险分担
目前实现程度:偶现的逻辑问题或者页面展示的问题会在项目群内知会