设计数据密集型应用

《设计数据密集型应用》第五章(3) 数据副本:Multiple-

2019-03-04  本文已影响0人  MeazZa

上一节我们介绍了关于数据副本中的Single leader模型,该模型的一大缺点就是只有一个leader,如果leader出现故障,将无法向数据库中写入数据。

本节我们将介绍Multiple leader的复制模型,也就是有多个leader接收写请求,并将请求转发给其他follower,以及未直接接收到该请求的leader。

使用场景

对于单数据中心来说,使用多个leader的模型,增加的复杂性要比得到的收益更大。那么,Multiple-leader的使用场景主要有哪些呢?

多数据中心操作

对于多数据中心来说,如果使用Single-leader的话,leader只能在某个数据中心,所有数据中心的写请求都需要发送到该leader上。而使用Multiple-leader是很合适的,配置方式是为每个数据中心配置一个leader,每个leader将数据更新发送给其他的leader,数据中心内部使用常规的leader-follower的复制方式。

多数据中心的Multiple-leader

比较一下多数据中心的Single-leader和Multiple-leader两种方式:

Multiple-leader的最大缺点是当数据被多个数据中心修改时,可能出现数据的冲突,在后面会讨论这个问题。由于Multiple-leader的特性在和数据库的其他特性一起使用时存在一些不可预知的问题,比如自增key、触发器等,Multiple-leader的使用是比较危险,并且是要尽量避免的。

客户端离线操作

如果客户端希望在不连接网络时进行数据操作,使用Multiple-leader是合适的。比如用户的移动设备可能未连接网络,此时可以认为设备中的本地数据库是一个数据中心,可以先修改本地数据库,然后在连接网络后将修改同步到远程数据库。

这更像是一个多数据中心的问题,每个设备是一个数据中心,并且数据中心的网络连接是不可靠的。使用Multiple-leader能解决该问题,但仍然会存在一些数据复制的错误,需要一些tricky的手段。

合作编辑

一些在线编辑软件,允许多用户同时编辑一个文档。此时想象成用户修改本地的数据块,并将修改的数据异步复制到其他服务器,同样需要处理的是冲突的问题。

处理写冲突

Multiple-leader的最大问题就是可能会出现写冲突,因此需要解决写冲突的问题。

两个leader的写冲突
同步/异步冲突检测

如果采用异步冲突检测的机制,多用户都可以成功修改各自的数据,在随后的某个点进行冲突检测,此时可能已经来不及提示用户解决冲突了。

如果采用同步冲突检测的机制,只有数据replica复制完成后,其他用户才能写入数据,这样就丢失了Multiple-leader的好处,还不如使用Single-leader了。

避免冲突

解决冲突最简单的方法是避免冲突。比如用户只能修改他自己的数据时,可以将每个用户的写请求使用路由至相同的数据中心,从该用户的视角来看,这是一个Single-leader的模型。

但是当某个数据中心出现故障时,该方法就失效了,仍然需要处理不同数据中心可能的数据差异。

转换到一致的状态

如果能够将不同数据中心的数据副本的修改,最终统一为一致的状态,那么就不存在数据冲突的问题了。实现的方式有以下几种:

自定义冲突解决逻辑

最合适的方法是由应用自定义冲突解决的方式,解决的时机有以下两种:

需要注意,这种冲突解决的方法没有考虑一个事务中包含多个请求时事务的完整性。

Multiple-leader的拓扑结构

在Multiple-leader的模型下,leader之间的拓扑结构有以下三种形式:

Multiple-leader的三种拓扑结构 多对多拓扑,数据顺序错误

这类似一种因果关系的保证,因此可以使用类似时间戳的方式保证执行的先后顺序,但在多leader的情况下时钟时间是不能被信任的。后面我们会介绍一种称为version vertors的技术是用来解决该问题的。

小结

Multiple-leader的数据冲突问题,目前仍然很难被完美的解决,因此在确定使用该模型时,需要仔细阅读文档,并进行充分的测试,以保证提供了我们需要的可靠性。

上一篇下一篇

猜你喜欢

热点阅读