谈一谈云计算下的运维
这一次好好谈下云计算时代的运维。
对云计算的定义
云计算其实跟 PC 机有一样的概念,有 CPU、硬盘、操作系统、应用软件。
云计算的计算节点(虚拟机)就是 PC 中的 CPU,数据缓存服务就是 PC 的内存,存储节点就是 PC 的硬盘,提供数据服务,让数据不丢、高可用,PC 中的控制器就是云计算的控制系统。PC 机的硬件上面要有操作系统。
操作系统很大一块是给开发人员提供系统的 API 接口,提供系统监控以看运行情况,并且还要有系统管理——如用户账号的权限管理、备份恢复等等。操作系统上面要有应用软件,这样才能服务于最终用户,应用软件就是真正落地的业务,这样才会有用户;有了用户,整个体系就运转起来了。
无论云计算长成什么样,都得要向用户提供“服务”,而不仅仅是软硬件和各种资源。
云计算的技术难点
到今天,云计算的工业实现已经不太难了。现在有开源软件 KVM 和 Xen,这两个东西基本把虚拟化搞定;而 OpenStack 则把管理、控制系统搞定,也很成熟。
PaaS 也有相应的开源,比如 OpenShift,而 Java 里也有 N 多的中间件框架和技术。另外分布式文件系统 GFS/TFS,分布式计算系统 Hadoop/Hbase 等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。
对于云计算工程方面,现在最难的是运维。管 100 台、1 万台还是 100 万台机器,那是完全不同的。机器少你可以用人管理,机器多是不可能靠人的。
运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。只要你做大了,就必然要在运维系统上做文章。数据中心 / 云计算拼的就是运维能力。
运维的市场需求
为什么说运维比较复杂,原因有这么几个:
一方面,云计算要用廉价设备取代那些昂贵的解决方案。互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如 EMC、IBM 小型机、SGI 超级计算机等等,如果用它去搭建云计算,成本太贵。运维好廉价的设备其实是云计算工程里最大的挑战。
另一方面,因为机器多了,用的又不是昂贵的硬件,故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说的,你服务的可用性是 3 个 9、4 个 9 还是 5 个 9。
最后,这一大堆机器和设备都放在一起,安全就是一个挑战,一方面是 Security,另一方面是 Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。
面对这样的难题,人是无法搞得定的,只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样,对资源的管理,对网络流量、CPU 利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。
然后,还要找到可用性更好的节点,这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定,有些磁盘的 I/O 会变慢。变慢的原因有可是硬盘不行了,于是硬盘控制器可能因为 CRC 校验出错需要要多读几次,这就好比 TCP 的包传过来,数据出错了,需要重新传。
我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,云计算时代我们需要自动化的、主动的运维。