723观白皮书

2019-07-24  本文已影响0人  Vychod

《数据中心运维管理技术白皮书》

第一章:数据中心运维白皮书简介

本章介绍了数据中心发展现状及远景,说明运维白皮书产生的背景、紧迫性、必要性。

第二章:数据中心ITIL运维框架

本章介绍的重要ITIL流程包括:事件管理,问题管理,变更管理,服务请求管理,资产和配置管理,安全管理,服务级别管理,服务持续性管理,容量管理,发布管理,财务管理和可用性管理

ITIL:IT基础架构标准库

国际IT服务管理领域的实施标准
强调基于“以客户为中心,以流程为导向”的IT管理观念,将传统的IT管理活动按照流程的方式重新加以组织,并强调根据客户的业务需求提供质量可靠、成本合理的IT服务。

PPT原则

即受过良好培训的人员(People),通过执行明确定义的、以技术(Techonology)驱动的流程(Process),为它所支持的业务提供高质量的服务。

数据中心事件管理(Incident Management)

一. 事件管理概述
事件管理的目标就是在出现时间时尽可能快地恢复服务的正常运作,避免其造成业务中断,把对业务的负面影响降为最低,以确保服务质量和可用性满足SLA(Service-Level Agreement,服务等级协议)中定义的正常服务级别。为了实现这个目标,事件管理流程必须最佳地利用资源支持业务、开发和维护有效的事件记录,以及设计和应用统一的事件报告方法。
所谓事件是指可能会导致服务中断或服务质量下降的,不属于标准服务的事件。事件不经包括了与软件和硬件有关的错误,还包括服务请求。
事件管理不是找到引起系统异常的根本原因,而是尽快恢复系统业务功能,找到异常根本原因事问题管理流程的目的。
事件管理的主要任务是及时识别并跟踪发生的事件;对事件进行分类并提供初步支持;对事件进行调查分析,识别引发事件的潜在原因;解决事件并恢复服务;跟踪和监督所有事件的解决过程,并随时进行沟通。因此,研究事件管理对解决目前IT运维中存在的服务问题具有重要的意义,事件管理时效性将直接影响整个企业的IT服务质量和整体运营状况。

二. 事件管理的关键点

  • 新建
  • 已接收
  • 已计划
  • 已分配/已指派给专业人员
  • 激活状态
  • 已暂停
  • 已解决
  • 已终止

影响度是指所影响的用户或业务数量而言,时间偏离正常服务级别的程度;
紧急度是在解决故障时,对用户或业务来说可接受的耽搁时间;
优先级是根据影响度和紧急度决定了处理事件和问题的先后问题,优先级通常用一个数字来表示,优先级=紧急度x影响度

职能升级:需要具有更多时间、专业技能或接入特权(技术机构)的人员来参与事件的解决。这种升级可能会超越部门界限而且可能回包括外部支持者。
管理升级:当经授权的当前级别的机构不足以保证事件能及时、满意的得到解决时,需要更高级别的机构也参与进来。

三. 事件管理关键点的具体实例

1. 数据中心事件的分类
数据中心运维过程中发生的事件种类繁多,我们主要根据故障种类以及事件定级方法,对数据中心事件进行分类。从故障角度划分的事件包括:

供配电系统事件、制冷系统事件、物理环境事件、物理安全事件、监控系统、网络故障、IT系统故障、自然灾害等;

结合事件定级因素,将事件分为一级、二级、三级和四级等不同的等级。有的企业会划分为三级,有的为五级。

级别 状态描述
一级事件 关键服务中断,影响SLA的大达成
二级事件 关键服务组件出现故障,导致不满足冗余条件或服务水平下降,有潜在影响SLA的可能性
三级事件 非关键服务组件故障,不影响SLA的达成
四级事件 非关键服务的质量下降,造成轻微影响或影响可以忽略

2. 数据中心事件的升级
在实际事件升级中,没有统一的强制标准,是由具体的业务和管理要求决定的。

三级事件 二级事件 一级事件
现场工程师 5分钟报告现场经理 5分钟报告现场经理 5分钟报告现场经理
机房经理/客服经理 10分钟报告事件管理经理、客服经理 10分钟报告事件管理经理、客服经理
事件经理 15分钟报告运维总监 15分钟报告运维总监
运维总监 30分钟报告运维总监 15分钟报告运维副总裁
运维副总裁 15分钟报告运维总监
目标值 一级事件 二级事件 三级事件 四级事件
响应时间(分钟) 5 5 15 15
派单时间(分钟) 10 15 15 15
接单时间(分钟) 15 60 工作时间 工作时间
管理升级时间(分钟) 5 15 N/A N/A
技术升级时间(分钟) 15 30 12小时 24小时
解决时间(分钟) N/A N/A N/A N/A

3.数据中心事件的记录

描述___________________________________________
事件名称 事件的名字
严重级别 事件的严重级别
优先级 事件的优先级级别
生成时间 事件产生的时间
重复次数 事件发生的重复次数
拥有人 事件处理拥有人
描述 事件的描述
开始时间 当前事件开始时间
结束时间 当前事件结束时间
第一次发生的时间 事件第一次发生时间
最后一次发生的时间 事件最后一次发生的时间
状态 当前事件实际状态
事件ID号 事件ID号
事件显示数 事件计数
计数器名 计数器名
实例名 实例名
事件数据 事件数据内容






LIFE IS SHORT, YOU NEED PYTHON

while(alive){
      eat();
      sleep();
      code();
      repeat();
}
上一篇 下一篇

猜你喜欢

热点阅读