混沌工程赋能：规模化地应对上云后的未知暗债

2021-10-05 本文已影响0人程序员吾真本

企业如何规模化地赋能团队，以应对上云后所遭遇的未知暗债？在解决这个复杂问题的过程中，混沌工程诞生了。

企业上云后遭遇未知暗债

什么是暗债？讨论系统复杂性的STELLA 报告指出，“暗债存在于复杂系统中，它所产生的异常，会导致复杂系统出现故障。暗债产生时，无法识别。它不会使得系统停顿，而是会产生异常。当硬件或软件与框架其他部分发生不可预见的交互时，暗债就会产生。由于暗债不可见，只能通过系统发生异常才能感知它的存在，所以暗债无法避免。”

企业的应用软件系统，无论是从原先的单体架构整体平移到云环境，还是进行了微服务化改造后逐步上云，软件系统运行所依赖的环境以及软件系统自身，都会变得越来越复杂。当软件系统内部的服务之间，以及与其所依赖的云平台发生交互时，就会产生不可避免的暗债，导致系统出现不可预知的故障。

混沌工程要解决的问题

Netflix公司在2008年，将其单体架构的系统从数据中心迁移到AWS云平台时，就出现了暗债所导致的未知故障。比如系统运行所依赖的AWS实例会突然消失，且不会发出警告。

由于Netflix的业务完全依赖AWS的云服务，所以上述暗债是会影响公司所有业务。如何才能规模化地应对这种全局性的暗债呢？

Netflix工程师尝试了各种方法来应对这种暗债，最后发现“混沌猴”效果不错，于是就将其保留了下来。

混沌猴是一个应用程序，它会模拟触发上述暗债，即遍历AWS实例集群，然后从每个集群中随机选择一个实例，在上班时间关闭，且不发出警告。由于这是在生产环境注入了故障，所以工程师们会将应对这种暗债，作为最高优先级的工作来完成，从而将规模化应对这种暗债最终落地。

Netflix公司从中逐渐发展出了混沌工程这门学科。

从中能够看出，混沌工程就是通过在复杂的分布式系统上进行故障注入实验，以便在企业内规模化地促进开发团队进行系统稳定性的赋能，从而应对不可预知的复杂系统中的暗债。

混沌工程赋能的核心

混沌工程赋能的核心，就是规模化地赋能开发团队各角色（业务、开发、测试、运维），更全面地理解复杂系统如何运行及如何失效，加强系统稳定性设计，以便快速应对未知暗债。

赋能开发团队，需要成立赋能团队。赋能团队的主要赋能工作，包括两个方面：首先为开发团队提供咨询服务，之后在此基础上，为开发团队提供适用的工具或平台。

为混沌工程赋能创造好的条件

要为混沌工程赋能创造好的条件，可以做下面12件事（参考了Reliability Calculator：https://www.gremlin.com/reliability-calculator/）。

为了将有限的资源投入到最关键的软件系统服务上，需要对服务按照业务关键性，建立分级机制。第1级服务面向用户，能够持续产生收入，或者其他第1级服务需要强依赖于该服务。第2级服务既可面向用户，也可不必，但其他服务必然需要强依赖于该服务，或者该服务需要准确和持续地持久化数据。第3级服务既不面向用户，其他服务也无须强依赖于该服务，如果该服务失效，也不会产生什么数据损坏。人们对第1级和第2级服务的系统稳定性的期望，要高于第3级。
划分软件系统服务质量与稳定性“责任田”。为每个第1级和第2级服务，分配长期稳定的开发团队，专门负责该服务的软件质量和系统稳定性，而不是按项目制那样动态从资源池中抽取人力做临时的项目，造成服务的软件质量和系统稳定性无人长期负责的问题。
运用质量内建、系统稳定性设计、架构演进与守护，提升软件系统服务自身质量，以避免在分布式生产环境运行时，服务自身缺陷与生产环境暗债交织在一起，增大应对暗债的难度和复杂度。
建立“任何高可用设计都是待在生产环境验证的假设”的意识，促使开发团队各角色在生产环境进行系统稳定性实验。
由于软件架构是各种非功能性需求权衡后的结果，所以描绘结果的架构图，需要与记录权衡过程的架构决策记录结合起来，才能了解结果背后的前因后果，为理解和分析复杂系统的行为提供细致的上下文。因此，需要运用持续更新的软件架构图和架构决策记录，来对齐开发团队各角色对复杂系统的架构认知。
建立软件系统服务专用的工具平台，并具备主动监控或告警阀值机制，以便记录混沌工程实验的过程，理解和分析复杂系统的运行和失效模式，并快速应对故障。
衡量系统稳定性，需要度量有关故障的两个指标：度量故障频率的服务平均故障间隔时⻓ (Mean time between failure， MTBF)，和度量故障修复速度的服务平均恢复时⻓ (Mean time to recover， MTTR)。服务平均故障间隔时⻓，指给定服务在两次事故之间的平均时长。比如，去年发生了5起事故，那么服务平均故障间隔时⻓就接近于1752小时。故障平均恢复时长，指服务从故障发生开始（注意不是从故障被检测到开始），到服务恢复的平均时长。这里的恢复，既包括自动化恢复，也包括手工恢复。
当事故发生时，应该能够立即找到灾难恢复预案，通过执行其中的步骤，来检测并减轻灾难影响。
建立服务稳定性表现的内部期望，需要建立服务等级目标SLO（可以与对外发布的服务等级协议SLA不同）。SLO一般用一个百分数来度量，比如99.9%（3个9）。
为了判断是否需要加强系统稳定性的建设，需要建立故障预算。故障预算指服务的 SLO 与实际测量的正常运行时长之间的差异。例如，服务 A 当月的系统可用性 SLO 为 99.999%。这意味着服务的故障预算，是当月可以有 0.001% 的停机时间（即25.92 秒）。如果事件导致停机时间超过 5 秒，则“花费”了 19% 的错误预算。只要有剩余预算，正常的工程工作就可以继续。但如果停机时间超出了预算，那么工程工作就应该转向额外的测试、混沌工程和开发工作，以使系统更具韧性。
为了能够快速应对故障，需要对建立生产环境轮流值班机制。对于第1级服务，需要建立7x24的轮流值班机制。对于第2级服务，需要建立工作时间轮流值班机制。
开始进行混沌工程实验：混沌工程是一种进行深思熟虑并有计划的实验，以了解复杂系统在出现故障时的运行方式。实验一般有三个步骤：1）识别系统在出现问题时的稳态假设；2）设计并对系统实施控制了爆炸半径的实验；3）衡量系统失效过程中每一步对业务的影响，寻找系统运行成功或失效的迹象。实验结束后，开发团队就可以更好地了解系统的实际行为。

混沌工程的成效度量

混沌工程是一个赋能活动，其成效度量可以参考在培训界常用的Kirkpatrick模型。该模型是美国威斯康星大学教授Kirkpatrick，于1954年提出“4级培训成效评估模型”。

4级培训成效评估模型

混沌工程赋能的过程

要想实现混沌工程规模化赋能，需要运用“跨越鸿沟”的规模化思路，通过解决早期大众的痛点，来跨越从早期采纳者到早期大众的鸿沟，从而逐渐实现规模化。混沌工程赋能的过程，可以包含以下9步。

赋能团队

成立赋能团队，为开发团队的混沌工程实践，提供咨询服务和工具。

选择服务

选择为生产环境稳定性所困扰的团队，及其所开发和维护的软件系统服务，作为试点。因为这样的团队，才有动力提升系统稳定性。

搞实战营

持续搞混沌工程实战营，每一期3个月，聚焦一个试点服务，重点培养混沌工程赋能种子，优化过程和工具，沉淀案例并分享。下一期换一个服务，再搞实战营，上一期的种子可以作为下一期的讲师，持续搞实战营，以便逐步增加赋能种子，并优化工具，逐步通过种子和工具进行混沌工程的规模化。

挑选种子

选择具有编程能力，且具备混沌工程理念的开发人员，作为赋能种子。每期实战营可选2位种子。

现状调研

调研与访谈试点团队的系统稳定性现状和痛点，可以使用问卷，加快调研速度。

导入理念

通过培训的形式，为试点团队业务、开发、测试、运维各个关键角色，导入混沌工程理念。在导入理念时，内容一定要紧扣团队痛点。

沉淀案例

沉淀试点团队通过混沌工程实践，有效应对系统稳定性痛点的案例。以下7步是常见的混沌工程实验步骤。

1）稳态假说

召集试点团队业务、开发、测试、运维各个关键角色，参考软件架构图和系统稳定性痛点，共创稳态假说。

2）现实事件

试点团队参照现实世界的真实事件，设计故障注入方案和混沌实验。

3）观测影响

试点团队准备好观测工具，以便搜集实验数据，并在故障影响业务时及时中止实验。

4）稳定设计

试点团队针对共创出的稳态假说和现实事件，进行系统稳定性设计。

5）应急预案

试点团队针对故障注入实验，设计应急预案和随时中止实验的大红按钮，确保实验不会影响业务。

6）进行实验

试点团队业务、开发、测试和运维等关键角色需要全程参与实验，并扮演总指挥、操作员、观察员、记录员、安全员等角色，按照演练手册，各司其职。

7）学习改进

实验结束后，试点团队需要回顾实验整个过程，识别改进项（包括工具方面的改进项），并分析实验观测数据，编写实验报告，落地各个改进项。

案例分享

试点团队按照Kirkpatrick模型，识别混沌工程实验应对系统稳定性痛点的成效，连同实验的整个过程，一起分享给其他团队，以便为规模化营造氛围。

优化过程

试点团队通过混沌工程实战营，总结适合自身特点的混沌工程实践过程，并持续优化，以便持续提升系统稳定性，并为给其他团队进行规模化推广，提供参考。

总结

混沌工程实践，本质上是赋能团队，通过提供咨询服务和工具，为复杂系统的开发团队进行规模化的系统稳定性赋能活动。要想让规模化赋能顺利开展，需要运用“跨越鸿沟”的规模化思路，通过解决早期大众的最大痛点，来跨越从早期采纳者到早期大众的鸿沟，从而逐渐实现规模化。而吸引早期大众的关键特性，就是能赋能早期大众更全面地理解复杂系统的运行和失效方式，从而设计更具韧性的系统，并能更加快速地应对暗债，以验证高可用的设计。