运维

上云最佳实践「阿里云」——电商行业

2017-05-10  本文已影响311人  我叫乔帮主

一、故事的开端

那是2014年的12月中旬的某日,客户联系到我们。由于客户2015年2月机房机柜到期,所以想把资源迁移上云。客户联系到我们时,表示需要我们的支持。客户需求很明确,希望根据平台目前数据及特性,兼顾成本与性能给予最佳云架构/资源方案。
客户背景:2006年成立,杭州某知名网上私人订制礼品购物平台。

二、前期调研

运维团队规模(4人):运维1人、运维架构师1人、网络工程师1人
客户研发/测试团队规模:30人
客户电信机房资源:

三、确认合作意向

从客户角度来讲,有三大痛点:
1、虽然云的确在成本、扩展、灵活性、快捷等方面有很大优势。但是,对云产品、云架构的灵活运用,是有一定技术门槛的。怎么样利用云资源设计出低成本高性能的架构,这是个经验性的技术活。

2、客户没有724监控响应中心,导致出现报警往往不能及时马上联系上运维,及立即响应解决,运维的724无法得到保障。

3、客户有四个运维人员,成本高昂也是最实质性的痛点。
所以通过洽谈,最终在12月底确定了合作意向(具体商务方面的细节不再这里概述)。我们为客户提供上云架构方案 + 上云迁移 + 724监控 +724运维服务(我方运维为主,客户运维为辅)来解决客户痛点。

四、上云迁移的挑战性

挑战1:时间短:客户机房2月到期,并且在每年2月14日情人节是一年中的业务高峰期。由于确定商务合作的时间点已经12月底了,所以项目排期,我们需要在1月中旬(仅两周)完成项目的上云迁移、测试、及正式上线,预留两周作为观察过渡期。

挑战2:业务系统较多、技术环境较多:通过梳理,客户有十余个业务系统。Nginx、varnish、tomcat、php、python、redis、mysql等技术环境较多,这远远增加了迁移难度。

挑战3:零配置文档、零规范:其实说到这点挑战,我是很想吐槽的。很难想象,一个做了八年运维的系统,居然在运维配置文档、运维手册方面没有一份文档,仅仅有几张零碎的架构图。另外,在主机名、防火墙、配置文件规范方面更是杂乱无章。在迁移期间还遇到件比较搞笑的事情,忘记机房交换机密码,然后网络工程师亲自破解获取最新密码。这跟我们带来的迁移难度及挑战可想而知。

五、上云迁移

过完元旦后,2015年1月4号正式上班。来到公司(上海),做了些简单准备,收拾好行李。我作为运维负责人,和两名架构师、1名DBA、1名高级运维、两名中级运维,在下午开车前往杭州进行项目周期为期两周的上云迁移。

5.1、项目启动:2015年1月5日
这是来到客户公司正式开展工作的第一天。这一天中,我们主要确定双方参与项目人员的职责,制定项目通讯录。并且确定了项目实施计划,项目周期为12天。

5.2、系统架构梳理及评估:2016年1月6日—2016年1月7日
接下来进入是项目迁移实施期间,首先我们需要对原系统进行评估、并且制定云上架构。原系统评估的内容涉及到:系统架构、软件模块架构、业务架构、接口以及调用依赖关系、性能评估、上云迁移目标
云上架构涉及到的内容:上云后系统架构、软件架构、业务架构、性能目标、上云难点等等。其中云上架构图如下:

云上架构图
与IDC架构不同的是,

5.3、迁移方案:2016年1月6日—2016年1月7日
在进行系统架构梳理及评估的同时,我们同时开展了迁移方案的确认。即,如何将应用、数据迁移至云端。同时我们还确认系统割接上线的流程及对应的时间节点。在迁移方案中,我们确认了客户云上资源清单(23台ECS、两台RDS、一台SLB)及具体的服务器配置。

5.4、迁移实施:2016年1月6日—2016年1月7日
二十多台云主机牵扯nginx、php、tomcat、redis、varnish等环境部署,我们通过自动化的部署手段来保障部署的最大效率。线上23台服务器环境的部署,我们半个小时内搞定。

至此,我们引来了迁移最为痛苦的时期。由于运维配置手册、运维文档的缺失,所以我们将应用代码部署到我们已经搭建好的环境中后,我们需要对每一项参数、每一个配置都要仔细调试。我们三名运维同学拉着客户运维人员、研发团队不眠不休整整一天一夜,完成了所有代码的调试、对应配置的文件的调试。至此,我们迁移工作完成了大半。后续核心工作主要集中在功能测试、性能测试及上线割接了。

5.5、迁移测试:2016年1月9日—2016年1月11日
此阶段主要为功能测试、性能测试,主要集中在客户的测试团队。

5.6、上线割接:2016年1月13日—2016年1月15日
上线割接前,需要做好客户及公司内部的维护通告。正式迁移的时候,由于系统、代码、文件都已迁移过去。加上客户数据库较多,无法做到实时迁移,所以我们采用了保守做法,停机迁移。迁移的最后一步是将域名解析至阿里云,这里在前面也提过,域名需要提前备案的。
到此是不是完成了最终迁移呢?其实还是没有的,虽然域名已经解析到最新的ip,当前万网的刷新最新的解析记录的时间周期最短也仅仅10分钟。但是我们没法把控的客户端本地的DNS缓存,即还会有部分客户还是访问到老的站点。所以完成最后迁移,我们还差最后一步:

5.7、项目交付及后期监控运维
后续便是项目交付,主要为文档的编写总结。此项目我们总共汇总了三十余个文档,主要包含系统软件架构、系统架构、迁移方案、运维实施配置文档、运维维护手册、故障处理文档、资源清单等等。
文档交付后,进入后续7*24日常监控及运维阶段,这里不再过多概述。

六、上云前后的对比

写这篇文章的时候,我一直在脑海中搜索有没有一个上云的实践对得起“最佳”二字。对我本身而言,在面对成百上千的客户实践案例中。这个项目无非是我体会最深刻,总感觉千言万语总嫌少。一切尽在以下对比图中:

| IDC | 阿里云
----|------|----
配置 | 3个机柜
15台硬件服务器(包含两台96G内存配置)| 23台ECS(4核8G、2核4G)
1台按量SLB
2台RDS(6000M/200G、2400M/200G)
带宽| 200Mbps/电信独享 | 1Gbps/BGP网络
成本| 人员成本:15w/人 4人= 60w
资源成本:8w/年*3个机柜=24w
100元/Mbps*1个月*12个月* 200 = 24w
合计:100w/年| 资源成本:15000元/月
10个月 = 15w
第三方运维服务费用:12w
合计:27w/年

我为自己带盐,原创作者:乔锐杰

上一篇 下一篇

猜你喜欢

热点阅读