关于告警降噪的思考

2022-05-27  本文已影响0人  有点胖的瘦子

目前常见的告警系统,只要是对用户造成困扰的是告警过多,通常每天超过1000条,还好的话每天超过200条,如此庞大的告警极易造成运维人员疲于应付、麻木不仁,而真正出了大事的告警常常被忽视,因此告警降噪成为目前最主要的告警需求之一。

若要进一步将拓扑上类似告警融合在一起,则需要系统拓扑关系来支持,同时还会演化出一种基于CMDB的告警压缩方法。

告警过滤在应用场景中,许多人都想通过最简单、最直接的手段解决这一难题,但针对数据不同步或海量并发请求等某些复杂场景,却缺乏充分的手段去实现。 如果只依靠传统的基于关键字和规则进行压缩的话,效率很低而且也不能满足实时性要求。而利用分布式流计算计算框架可以大大提高计算速度并提高系统性能。 所以在实际运用的过程当中我们可以考虑、利用各种技术来达到对大量告警信息的高效快捷的处理。

比如采用深度学习等人工智能算法和数据挖掘,机器学习等数据分析技术把传统人工方式不能识别异常状态的报警变成可以理解和精确判断是否有异常的报警,实现了实时监控预警的功能,也有助于企业降低不必要的工作负担,提高效率。

告警过滤当前主要使用的技术手段有:

(1)智能分析引擎——包括语义分析器与行为分析平台

(2)特征挖掘——基于历史历史数据或者事件日志产生预测模型来抽取关键属性

(3)知识图谱的构建——知识库与数据库的建立

(4)推荐机制:对某类告警会自动推送对应类告警服务,比如提醒告警服务,通知告警服务等

(5)消息队列管理:对所有告警关联消息进行记录,并将其变为分享文档、查询方便

(6)个性化定制:根据每种业务模式并结合其特点制定专属个性化服务方案;

(7)可视化界面:将各个功能模块运行状况和操作流程直观地显示出来,以便于顾客对具体细节进行理解。

上一篇 下一篇

猜你喜欢

热点阅读