系统运维
一、资料完整性,准确性
1. 无论用excel,word,运维工具,运维平台,PPT,visio等,各种相关文档完整性,准确性是非常重要的。
2. 机房平面图,机柜面板图,机房、机柜具体位置。
3. 主机名称,硬件型号,IP,用户,密码,机柜位置,设备序列号,设备上线时间,初验时间,终验时间,合同号,维保合同号,过保时间,运行应用程序。
4. 网络设备端口表。
5. 各种SSH、URL、客户端、ORACLE,应用程序等登录用户,密码。
6. IP地址包括:固定,浮动,内网,外网。
7. 组网图,标明IP,网内,网外。
8. 逻辑图,流程图。
9. 各种软硬件版本号,如防火墙,交换机,存储,操作系统,数据库,各种应用。
10. 变更记录表。包含原版本,目标版本,解决那些主要问题,操作人,时间。
11. 整个系统启动,停止,查看状态命令,包含所有软硬件启动,停止,查看。
12. 周边网元,账号,密码,接口方式,协议,IP,端口,服务端,客户端,联系厂家,人员,电话,邮件。
13. 应急方案(系统各种应急情况,故障情况的应对措施)
14. 联系人表,包括客户,厂家维护人员,维护主管,市场人员,第三方厂家人员,各公司400联系方式。相关人员姓名,电话,邮箱。
15. 产品培训文档。
16. 产品文档,安装,调试,操作,维护,故障处理,参考,专题,术语等。
二、监控
1. 监控主机,网络,存储,操作系统,数据库,应用。
2. 可以客户端显示告警。
3. 分几个级别,重要级别短信,邮件,微信告警。
4. 及时,准确。
5. 可能有统一监控平台,也可以自定义部分脚本。
思考:
a) 互联网一些云平台可以根据监控的问题,自动进行故障自愈,业务扩缩容。
b) 尽量减少误告警。
三、巡检
1. 通过运维平台,维护工具,脚本,自动定时巡检,如一天一次,一周一次,一个月一次。
2. 可以对主机,网络,存储,应用,数据库进行巡检。
3. 每天或每周看一次。
4. 有问题尽快处理。
思考:
a) 巡检如个人体检医院,是最重要维护手段之一,必须脚本,工具,平台自动化。
四、备份
1. 自动本地定时备份,自动上传备份服务器(尽量有存储),自动删除本地XX天之前文件。
2. 备份服务器有目录结构,备份各节点配置,数据库,网络等配置,自动定期删除XX天之前文件。
3. 备份系统软件,平台安装软件,文档资料,产品手册等等。
4. 尽可能有两台备份服务器,异地更好。定期备份一次。
5. 最好个人有移动硬盘能备份。
6. 通过脚本,工具,运维平台自动备份。
其它注意事项:
a) 备份是最重要维护工作之一,不管是传统IT的备份,还是云平台上的镜像,都是出问题时,恢复业务的关键方法之一。
五、双机、集群
1. 所有重要设备都是双机或集群,防火墙双机,交换机双机,负载均衡器双机,数据库双机,核心业务双机,核心业务集群,网络核心设备分布在两个相邻机柜,双电源,四电源。
2. 多地多机房。
3. 核心业务,可以多套同时对外服务。
思考:
a) 云计算上,如果规模大,同样多地部署。
六、冗余
1. 如果所有设备只在一个地方,如一个机房,一套网络设备下,那么建议核心部件建冗余系统。
2. 冗余系统可以为单机,多机。
3. 核心业务,数据库等,可以做冗余系统。
4. 一旦核心业务、数据库等故障,无法恢复,可以用冗余系统改IP,启动服务就可以。
思考:
a) 云计算上,冗余容易些,虚拟机或容器镜像就可以。
b) 重要系统建全部冗余系统,可能几十台,几百台设备。
七、跳转机,堡垒机
1. 尽量有两台跳转机或堡垒机。
2. 各种应用客户端安装在堡垒机上。如运维平台客户端或页面,SecureCRT,Xmanager,P/L SQL,巡检工具,FTP,浏览器,存储,网络设备维护工具等等。
3. 采用VPN,短信验证或其它方式登录堡垒机,确保认证安全,难破解。
4. WINDOWS7或WINDOWS2008,在外部防火墙和主机防火墙可以开启防护,只开放可以访问端口并且外部防火墙用其它端口映射。
5. 简单情况,SecureCRT可以同时访问8-10台。如果设备多,几百,上千,用运维工具或运维平台管理。
八、安全加固
1. 升级应用程序,补丁。
2. 修改配置。
3. 规避。
4. 所有节点维护端口只对堡垒机,运维平台机器开放,禁止其它机器,包括局域网其它机器可以访问。如SSH 22端口,FTP 21端口,数据库1521端口,页面80端口等。
5. Oracle的sqlnet.ora,主机hosts.allow,NTP的ntp.conf等都可以限制IP。
6. iptables。
7. 漏洞端口本地iptables封堵,或程序停止服务。
思考:
a) 安全加固引起无数问题,故障,事故。
b) 安全只能达到一个平衡,不能做到所有都安全加固,否则无法维护。
c) 城墙被攻破是最薄弱那个点,其它地方加固再强,也可能被攻破。需要一个平衡。
d) 尽量在网络层,传送层就限制住攻击,不在应用层与攻击者PK。就是IP,或IP+端口进行限制。
e) 硬件防火墙,交换机流策略或ACL,主机iptables,应用配置,应用的IP,用户,密码认证,都是安全防护手段。
九、过保或停止服务设备统计
1. 一些硬件,软件已经过了维保期,客户没有买服务,或原厂不再提供维保。
2. 主机,网络,存储,操作系统,中间件,数据库,应用等,都进行统计。
3. 告知客户。
4. 推动买维保,推动更换设备,升级软硬件。
5. 应急方案要准备好。
十、系统隐患排查
1. 硬件隐患,单机,软件隐患,无后续版本,license到期,无人员,无厂家支撑等等。
2. 告知客户。
3. 推动更换。
十一、用户密码
1. 从维护角度,一个人维护200-400服务器(主机),50台网络设备,50台存储,3-8个系统,大量子系统,50套数据库。这是比较繁忙的工作,建议每个系统几十台至一百多台设备,只有三至四种密码。
2. 堡垒机密码定期修改,内部应用是否定期更换取决于维护规定。
3. 一个系统内大量各种样式密码,将大大降低维护效率,即使有运维平台也只能部分提高效率。
4. 当出现重大故障,紧急故障,日常问题定位,这些各式各样密码将是噩梦。
5. 尽量用运维平台或工具统一修改密码。
十二、信息收集
1. 主机:主机名,CPU,内存,磁盘,网卡,mount点,VG,LV,双机状态,双机脚本,启动脚本,路由,路由文件,after.local,boot.local,raw –qa,内置硬盘是否故障等等信息。
2. 网络:收集disp diag。
3. 存储:通过存储工具收集存储配置信息。
4. 应用软件配置。
5. 这些当出现故障,重启,设备更换时,对问题定位有很大帮助。
十三、启动停止命令表
1. 一个人维护系统非常多,当机房停电,或人员变化时,需要一份启动停止查看命令表。
2. 当整个系统加电,有明确启动顺序,如网络设备加电启动,存储加电启动,主机加电启动。
3. 应用启动命令,查看命令。
4. 所有应用停止命令。
5. 明确停止顺序。
十四、及时刷新维护资料
1. 日常操作手册,最常见动作。
2. 各种系统信息及时更新,如用户密码等等。
3. 应急方案及时更新。
4. 案例及时总结。