关于QA的一些事情软件测试质量管理体系

RBS(Risk breakdown structure)实时风

2019-03-10  本文已影响6人  徒河清

什么是RBS

我的理解是,RBS:对系统可能存在的风险进行分级结构,通过实时监控系统数据,根据一套预定的策略判断当前实时数据所反映的问题。根据问题预设的方案进行处理和跟踪,通过长期跟踪优化使得这套系统更加精确判断与处理系统的风险。(准确与否都有自己的判断)

风险管理流程通常分为五个不同的步骤

计划风险管理,风险识别,定性和定量风险分析,风险应对计划以及风险监控。风险识别和风险管理评估的核心是了解风险

基于团队现有的状况,在对RBS进行初步调研的基础上,设计如下实施步骤。

RBS调研--》可行性分析--》方案设计--》任务分解、计划安排--》阶段实施--》跟踪与修正--》效果评估


可行性分析

涉及范围评估

针对信贷系统风险分类管理系统,涉及系统直接相关方如下:产品、开发人员、质量控制、运维(SOR)、运营(风控、客服)、市场推广、用户。间接相关方:潜在用户、电信运营商、外部服务供应商、总部服务供应商、政府行业策略部门、应用商店。

本次体系落地核心目标:系统生产运行环境稳定。

可能存在风险梳理:产品业务逻辑冲突、开发发布恶意后门、生产实现与产品要求不符、生产发布不规范造成生产系统运行波动、运营人员配置错误产品策略、风控策略错误导致垃圾数据产生、客服不良引导引起客户极大不满、市场推广歧义引起用户恶意投诉、用户功能不可用、电信运营商短时间终止服务、外部服务供应商(大数据)短暂终止服务、总部服务短暂异常调整、政府策略调整。

主体:生产系统运行态

风险因素辨识

    触发主体:用户触发、非用户触发

    所属区域:系统内部、系统外部

    影响范围:个别用户、部分用户、全量用户

    严重程度:资金(营收减少、营收亏损、营收增加等短期因素)、声誉(声誉降低、定位模糊、声誉增加等长期因素)

    影响模块:核心主干流程、支撑功能

    紧急程度:立即修复、排期修复、紧急修复、挂公告终止服务

    可恢复性:5分钟内自动恢复、5分钟内手动恢复、2小时内手动恢复、1天内手动恢复

风险分级

    影响范围(根据现有用户量以及访问流量,评估影响范围)

        个别用户:个别用户功能无法使用

            示例:个别用户额度异常、个别用户交易异常、个别用户核心流程无法执行

        部分用户:部分用户功能无法使用

            示例:设备兼容性问题导致少部分机型功能无法使用、由于配置问题导致某些资方用户无法借款、由于资方服务异常导致部分资方无法借还款、生产部分服务节点超时导致部分用户访问异常

        全部用户:全部用户功能无法使用

            示例:生产部分服务器宕机、生产机房错误、风控策略配置错误导致业务异常拒绝

影响模块

    核心主干流程:开通(绑卡、认证)、借款、还款、搭售支付。

    支撑功能:修改支付密码、运营功能(客服、清结算)、绑定&解绑银行卡、查看合同、查看账单、公告

严重程度

    资金:资损金额(1000、10W、100W)

        无法借款导致产生资损、账单生息异常导致无法计息、无法还款导致逾期(用户资损)

声誉:

    产品功能不稳定导致用户质疑团队能力产生信任疑虑

    产品功能问题导致用户资损导致用户客服投诉

    产品功能问题导致用户经济诉讼

    产品策略问题导致用户恶意起诉

预期效果与形态

    对生产运营过程中可能存在的问题进行分级。按照问题产生的阶段、引入方、影响范围、影响模块、验证程度评估应采取以及可以采取的方案。并跟踪问题完整生命周期,确定问题得到解决;并持续优化整个体系。

    建立一套实时监控与策略执行体系。在跟踪生产实时运营数据中发现问题,并根据预定规则进行动作执行(报警、自动恢复、事故报告(影响范围、影响模块、影响结论)、问题跟踪)。


方案设计

流程分析

监控方案

    为实时了解系统当前所处的状态,通过数据和图表反应系统当前运行情况。数据采集涉及多个方面,从各个层面能够获取到各种数据。根据各个维度获取到的实时数据,进行问题定位策略运行系统;通过对问题的定位,执行后续步骤:问题分级报警、问题恢复(人工/自动)、问题报告发送、问题跟踪任务建立与派发、问题跟踪任务结论。

数据抓取

    非业务层面:网络流量、服务状态、中间层流量

    业务层面:数据流量、运营外部变更通知(风控策略调整通知、外部服务维护通知)、日志异常跟踪、业务拨测跟踪、服务质量(响应耗时、成功率)、供应商拨测

数据分析与心跳发布

    分析清洗抓取到的多维数据,根据设定指标给出心跳发布

策略执行与方案发布

    根据心跳发布的数据报障,综合分析给出可能问题产生原因(此此策略应随着不断完善数据抓取与分析能够不断提高精确度)

方案执行

    根据策略给出的方案,按照步骤执行问题报警、问题恢复、问题报告、后续跟踪

持续优化

    持续优化数据跟踪、策略分析、执行方案

实时风险分级解构处理系统

后续持续更新中。。。。。。

19.03.10.17

上一篇下一篇

猜你喜欢

热点阅读