饿了么异地多活技术实现(三)GZS&DAL(转)

2019-03-18  本文已影响0人  牛肉干狂魔

饿了么技术团队花了1年多的时间,实现了业务的整体异地多活,能够灵活的在多个异地机房之间调度用户,实现了自由扩容和多机房容灾的目标。本文介绍这个项目的中五大核心基础组件中的DAL与GZS,关于项目整体介绍以及其它组件的实现细节可以参考本系列的其它文章。

GZS (Global Zone Service:全局状态协调器)

背景

多活改造的一个核心是多活流量路由,来源主要包括三个方面:

不仅基础组件依赖多活路由,一些特定的业务也需要获得多活路由,因此必须有一个专门的组件来统一管理多活路由,并且在多活切换时能协调各个模块的工作。

1.jpg

多活路由设计

多活路由由三个部分组成,ezone,shardingid,shardingkey。通过这三层路由关系的调整实现了多活的灵活资源调度以及failover。

下图是一个简单的路由例子

2.jpg

一般来说ezone与shardid的关系是比较固定的,而shardingkey会是一个一直变化的状态。shardingkey的路由规则主要由3种类型

多活shard切换协议设计

多活切换的原则是:

shard切换协议如下:

  1. GZS将shard1状态从“ACTIVE”转化为“BLOCK”,并路由推送到订阅用户(DAL ApiRouter soaproxy e.g.)

  2. DAL阻止在所有机房相应的shard的所有操作 (直接返回操作失败:1036)

  3. API Router阻止相应shard的全部操作 (相应shard全部不可用)(返回固定错误码:530)

  4. GZS将shard1状态从“BLOCK”转化为“RESHARD”,shard1对应ezone从“ezoneA”改变为“ezoneB”,“reshard_at”域为当前时间

  5. DAL阻止在目的机房相应的shard的老数据的更新操作 (update 操作增加一个时间戳的判断条件 created_at > reshard_at)

  6. DAL在其它机房保持阻止

  7. 订阅用户根据新shard-ezone映射路由。

  8. GZS 开始倒计时。倒计时结束 或者DRC 通知同步时间到达reshard_at

  9. GZS 状态从“RESHARD”转化为“ACTIVE”

  10. DAL解除阻止

下面是一个简单的例子,将shard 1 的下单流量从ezone1切换到ezone2。

3jpg.jpg

设计实现

GZS的设计是紧密联系业务特性的产物。

4.jpg

为什么SDK使用订阅推送

由于多活路由查询对于其它多活组件(DAL,APIRouter,soaproxy)来说是个高频操作,远程查询显然不能够胜任。同时对于计算型的shardingkey也不适合在GZS Server做。因此需要把路由信息推送到SDK,来保证查询的高效。

路由订阅是全量更新还是增量更新

GZS定义了一套增量更新的协议,适用于所有的多活路由类型。对于映射型的shardingkey使用增量更新,而对于其它类型的shardingkey直接使用全量更新的策略。

如何考虑一致性与可用性

5.jpg

如前文介绍的,多活路由是三层结构,对于一致性其实有着不同的要求。对于Sharding Id这层路由有着强一致性的要求,我们一组多活切换步骤来保证一致性。整个过程我们是牺牲可用性的。而对于逻辑Sharding key,嵌入型以及计算型的一致型是和Sharding Id一致的是绑定的。我们唯一需要考虑的是映射型的Sharding Key,对于这种类型主要采用BASE的思想来设计,不强调实时高一致性,而是要求一定时间内达到最终一致性。以店铺ID为例子,当新的店铺添时,GZS保证秒级同步映射关系,中间不同步的状态通过业务使用地理位置路由等方式绕开。

GZS 拓扑图

6.jpg

DAL(Data Access Layer:数据访问)

背景

DAL是proxy型的数据库中间件,支持mysql协议,在多活项目启动前已经承载了饿了么全部生产mysql流量。在多活项目中,DAL责无旁贷扮演起保护数据正确性最后一道防线的角色。

多活DAL兜底

在前文我们提到了多活流量来源,来自ezone外的可以统一通过API Router收口。而来自ezone内部的流量,我们很难确认多活改造是否完成。因此需要在DAL层做兜底,防止多活数据错乱。

DAL多活兜底主要体现在两个部分

7.jpg

Global ezone

多活业务场景中,存在全局配置性的数据,呈现大量读,少量写的特性。针对这种业务,我们提供了global ezone这种解决方案。

这是一种跨机房的读写分离机制。查询走本机房的数据库salve,写全部走一个Master,对业务方来说DB的配置透明的。

8.jpg

DAL可以方便的把业务在各个ezone的服务指向同一个master。当发生failover时,通过DB的主备切换,就可以把mysql的master从一个ezone迁移到另一个ezone。

未来的展望

多活切换目前是人工操作的,每次多活切换的决策总要耗费不少的时间。未来我们要把多活切换的过程做到智能化,自动化。

文献引用

<u>https://yq.aliyun.com/articles/57715</u>

<u>https://coolshell.cn/articles/10910.html</u>

<u>https://en.wikipedia.org/wiki/CAP_theorem</u>

<u>https://zhuanlan.zhihu.com/p/32009822</u>

<u>https://zhuanlan.zhihu.com/p/32587960</u>

作者介绍

林静 ,2011毕业于浙江大学,2015年加入饿了么,现任饿了么框架工具部架构师。
转自:https://zhuanlan.zhihu.com/p/33430869

上一篇 下一篇

猜你喜欢

热点阅读