浅谈IT运维分析需要具备的核心能力
IT运维分析(IT Operations Analytics,ITOA)指实现基于海量IT运营数据的演绎、归纳推理,并支撑IT运营数据采集、存储、展现的相关技术及服务。其利用数学算法或创新方法,从海量IT监控管理系统采集的原始数据中挖掘有用的信息。ITOA是通过分析海量、低价值密度的IT系统的可用性和性能数据,发现复杂的数据模式,从而辅助优化企业IT运营过程的系统,其需要具备的核心能力如下。
(1)风险根源定位分析:通过融合分析来自基础设施、应用、用户的监控数据,定位产生风险或对系统健康造成潜在威胁的根源所在。
(2)性能可用性预测分析:基于历史数据预测未来系统性能和可用性的变化趋势,以及关联分析对系统可能产生的影响。
(3)问题识别与派发:围绕当前问题,从历史记录中查找解决方案和适合解决问题的团队或人,提高处理问题的效率。
(4)影响范围推理分析:当发现多个风险可能对系统造成影响时,基于从数据中发现的模式推理找出可能影响更大、优先级更高的风险,指导相关人员及时、高效处理这些问题,降低损失。
(5)多源数据融合互补:对IT基础设施和应用采集的数据进行关联、融合,补全网络、应用、服务拓扑结构,完善探查管理类工具信息视图。
(6)动态风险告警阈值管理:自动发现监控指标的正常运行范围,在用户负载变化或系统配置变更后,能够自动从历史数据中发现规律,调整异常告警区间的限定阈值范围。
对于ITOA技术,Gartner在Data Growth Demands a Single,Architected IT Operations Analytics Platform报告中总结了六种:①日志分析技术;②非结构化文本数据索引、查询和推理技术;③拓扑分析技术;④多维数据库查询分析技术;⑤复杂运维事件处理技术;⑥数据统计分析、模式发现与识别技术。具备这些技术的ITOA才能满足基础设施和应用层的监控需求,实现由多源异构探针采集的时间序列指标、日志、代码链路、网络包和用户数字轨迹数据的聚合、关联和分析。目前,市场上的ITOA产品提供商主要有Splunk、Elastic、Dynatrace和RealSight APM等。
《应用智能运维实践》