华为公司的信息化管理工作是怎样的?
本文作者在电力企业从事信息化工作近6年,深知IT系统建设和运维工作的繁琐和不可控性,经常有这样的疑问,“看看别人家是怎么做的呢?”。此次有幸到世界100强华为公司质量与流程IT管理部亲临现场进行调研,颇有收获,现在发挥简书的风格,跟大家一起分享讨论下!
华为的信息化规模
类型 | 数量 | 单位 |
---|---|---|
IT员工 | 7500 | 人 |
业务应用 | 800 | 个 |
数据中心 | 70 | 个 |
VM虚拟机 | 400,000 | 台 |
网络带宽 | 185 | Gbps |
数据总量 | 320 | PB |
内部用户 | 100,000 | 人 |
机柜数量 | are neat | $1 |
机房面积 | 13,000 |
![]()
3. IT支撑上述流程(需求收集、需求评审、需求实施跟踪、用户反馈)均通过需求管理平台在线填报、审批、流转,整个过程均可视化,做到可跟踪、可提醒。需求单关联到项目、关联到系统版本。 应用系统监控从2015年开始,华为对内部的IT系统启动做产品运营,通过产品运营报告展示应用系统的使用情况,建立了产品运营平台(用户分析、行为分析、实时运营、关键业务量、产品质量分析)。 数据指标体系:
系统开发管控
信息系统运维华为公司有15年以上的IT运营实践,其运维遵循ITIL3.0标准 ,开展以IT服务为导向的运维,采用全球运维理念提升运维效率和质量。目前正在建设统一的运维操作平台,构建故障自动监控及自愈平台。结合云计算、大数据提升系统监控和运维效率也是下一步待解决的问题。 华为公司在处理故障过程中,按照故障的严重程度进行等级划分,其中一级/二级事件工作日要求1h内解决,10min响应;三/四级事件要求8h内解决,非工作日24h内解决。监控人员24小时值班,夜间采用手机接收告警或通知值班。华为公司在重大业务上都会做好保障一级临时处置措施,除非有非常紧急且必要的故障需要到现场。 华为公司基于HP ITSM的运维工具进行了修改,形成一套完善的自动化运维工具平台。事件管理方面,运维过程中若发生故障,采用尽快恢复正常IT服务,使业务负面影响减到最少,保证服务水平。运维安全方面,运维人员通过专门的运维通道和运维工具保证,运维过程有详细的审计日志记录,并通过大数据实时分析日志,判断是否出现运维权限的异常行为如拷贝了机密资料等,极大提升了内部人员的安全隐患。 ![]() 故障处理经验积累:华为同事认为运维主要还是要靠经验,只有通过不断的积累,才能增加快速定位故障的能力。建议在日常运维过程中应增加知识库管理,充分发挥技术骨干、专家的经验,要把知识的传承工作固化到工作过程中,并设立相应的知识积累检查点,便于知识的积累与传承。对系统的每个模块定责任人CIO,根据事件级别通知人员到位,快速恢复业务,并注意将事件处理和问题处理分开。运维过程中遇到的最大故障问题一般为采用了新技术的系统,因此,为了系统的安全稳定运行,应尽量避免过多使用新产品新技术,待技术成熟后再做引进。 猜你喜欢
热点阅读
|