阿里巴巴

记一次蛋疼的阿里云DTS数据迁移

2017-02-22  本文已影响1139人  麻袋农夫

         最近准备把公司的数据库以及网站程序部署迁移到阿里云上面去进行一段时间的测试,来评定是否后续全部使用阿里云的产品来构建产品。

        目前产品的架构是SQLServer,Redis,asp.net以及PHP混合结构,从部署的分离以及性能和成本等角度出发,依次选择了阿里云的2台ECS服务器,一个Redis数据库产品以及一台8核64G内存的ECS服务器作为数据库服务器安装SQL Server。两台ECS服务器分别独立放置asp.net以及PHP网站代码。各个服务器之间的职责和功能还是非常明确的。

        2台Web服务器以及Redis数据库产品的部署进行还算比较顺利,由于我们的业务已经积累了好几年了,并且是线上运营的,所以目前已经积累了超过100G的数据,如果是采用普通的备份,恢复方式进行数据库迁移,预计将会使服务中断超过7个小时,将会带来不小的影响,正好之前在阿里云网站看到过介绍使用数据迁移DTS进行数据不停机迁移的方式,正好想借这个机会使用一下。

        结果,这成为了这次迁移中最为蛋疼的一个环节,严重阻碍了迁移的业务进程,整体迁移的计划一再改变,预计一天完成迁移的计划到现在仍然处于等待中的状态。

       最开始,按照默认选择的进行结构迁移和全量数据迁移,大概花了8个小时左右的时间完成了数据迁移,然后想到要进行增量数据的迁移,然后原来的迁移项目已经无法修改和添加增量数据迁移,只能新建一个增量数据迁移的项目,然后提示有若干数据表结构不符合规范,自己查了一些资料进行了调整,正准备进行增量数据迁移,突然在帮助文档里面看到如果最开始全量数据迁移的时候没有同时选择增量数据迁移,那么全量数据迁移时到开启增量数据迁移这个时间段内的数据是不会迁移的。。。不会迁移的,what a fuck!这样有啥用,只能把之前已经完成的结构迁移和全量数据迁移的数据库删除掉,然后重新配置一个新的包含结构迁移+全量数据迁移+增量数据迁移的项目,由于预计需要8小时左右时间,所以特地从下午5点开始启动,想着第二天早上五点左右完成,就可以开始切换了,结果到了凌晨2点,突然收到消息,迁移异常停止了,立马翻身起床,发现是有一个表增量迁移过程中出现了重复数据,所以中止了,可是,点击阿里云后台页面上的立即修复按钮,只是显示了错误的原因,没有给出任何处理的方式,也没有任何忽略或者操作的按钮。

       没有办法,只能提交工单进行处理,但是工单处理极慢,3点左右提交了工单,等到四点多也没有任何动静,考虑到到早上五点半肯定无法处理完毕,只能通知前一天约好早上五点半到公司一切切换数据的同事不用早过来了,悲催的同事已经叫好了滴滴转车准备来公司,只能临时取消。

        由于工单反馈实在太慢,我只能继续睡觉等待,到了早上7点多,工单有回复了,但是都是一些不痛不痒的信息,立即进行回复,然后等到公司十点多,才有了回复,告知中止的原因,并且让我进行在线进行修复和继续,但是我之前的信息已经告知了后台没有任何可以继续操作的地方,然后又是继续等待,过了半天,才看到项目进入了继续执行的状态,但是从监控数据中看到实际上并没有真正进行增量数据集成操作,并且这部分的若干数据也是错误的,没有办法,只能通过工单系统再次提交,然后就没有任何消息了,目前还只能等待。

       本来计划一天完成的迁移工作,被迫持续了超过2天,目前也还卡在数据迁移这个阶段。

       希望下午的时候,能够顺利运转起来吧。

       对于阿里云来说,真心希望能够提高客服的效率,最好能够提供一对一的应急技术支持客服,提高相关文档和操作流程的便捷性,能够降低上云的难度。

上一篇下一篇

猜你喜欢

热点阅读