告警的艺术,结束“狼来了”的困境
《狼来了》的故事家喻户晓,频繁发送错误信息就会失去人们的信任,“重点论”也曾提到:重点太多,就无所谓重点。
基于某种特征值设置告警条件,我们已经司空见惯。例如:关注某App的成功率,就设置“成功率低于98%即发出告警”,每分钟5000笔的业务高峰期失败10笔都不会触发告警。但在业务低峰期,在总共5笔的交易中失败1笔,即可让“成功率低于90%发出告警”。
在类似情况下,单一条件的告警会让运维人员盲顾不暇,甚至无法抉择,日积月累就像“狼来了”一样,让真正的问题告警埋没其中。
作为IT运维中不可或缺的一环,告警的准确性直接决定其他功能是否能够及时生效,起到画龙点睛的作用。如何帮助运维人员更加精准的发现问题,做到正确和高效,不仅仅是一门科学,更是一门艺术。
新运维环境的需求
现有的运维环境对告警规则的制定、配置工作的流程都提出了更高的需求:
能尽可能贴近真实情况
能适应各种场景
能简单配置,自适应性强
EZSonar 复合告警快速发现故障
适应复杂的运维场景
华青融天的AIOps产品EZSonar是新一代业务动态可视化运维产品,具备主动性、灵活性、智能性的能力,通过机器学习的方式实现异常检测、故障分析、故障关联和精准告警。
01
复合告警
运维人员可以同时设置在每分钟交易量大于1000笔/s、响应时间大于100ms、成功率小于95%时产生告警,这样告警设置更加灵活,符合实际需求,避免误报,同时可以让其在工作时间段内生效。
02
动态基线
EZSonar的复合告警就是为应对实际业务中复杂多变的环境而生的,它为业务设置动态基线,允许把多种告警和指标进行复合,同时满足多条规则时才会触发告警,摆脱无法设置静态告警的困境。
03
复合关联告警
高可用水平扩展架构已成为业界标配,一个App由3台服务器集群组成,前端用基于连接或应用层信息的数据包做负载均衡分发。
那么,拿单一或多个不关联的指标该如何衡量数据进出负载均衡指标的变化?负载均衡造成的交易丢失或延迟又该如何告警?
华青融天凭借丰富的客户经验,为使用者提供检测进出设备指标变化的方式,同时EZSonar可以:
关联节点前后两组会话,定义进出负载均衡的响应时间差
允许设置多条线路会话,按比例分配或汇总计算的方式进行精准告警,以此评估负载均衡设备是否产生偏差
EZSonar 简单的配置方法
给精准告警带来可行性
根据业务的特点,总有一部分系统运行无法准确找到其规律或特征。EZSonar通过机器学习发现业务的规律进而自动生成告警规则,有效的帮助运维人员从运维数据中了解系统的运行状态,分析定位故障,实时获取统计数据。
告警规则越细,其反映业务真实问题的准确度就越高,同时颗粒度越细意味着工作量越大。
例如对于一款拥有1000种交易参数的App,传统规则只能挑少数的几种到几十种情况进行告警。如果该App有上千个业务节点该怎么办?如果它的参数数量实时变化又该如何?
对此,EZSonar告警设置只需制定一条规则,便可自动适应参数的无穷变化,无需任何人工干预。通过简化的配置方法给精准告警带来了可行性,更重要的是,它的全覆盖告警可以发现出现概率小但重要性很高的事件。
在IT系统和信息架构规模不断扩大的今天,人工分析定位的运维方式已很难适应快速增长的业务需求。而通过采集当前环境中的运维数据,EZSonar利用复合告警分析,对IT系统中各个环节的问题进行快速定位、故障排除和预测,为业务稳定、高效运行保驾护航。
华青融天EZSonar为精细化告警赋予了全新定义,高效捕捉“那匹真正的狼”。