批量、增量接口并发问题和NTP协议

2018-02-11  本文已影响124人  阿菜的博客

背景

项目中存在「批量接口」和「增量接口」,两个接口都更新DB中的数据。

如存在以下表格,主键为shopId,shopName表示店名。

shopId shopName
111 info111
222 info222
333 info333

有以下两个接口:

updateShopNameBatch(List<Integer> shopIdList, String shopName);

updateShopName(Integer shopId, String shopName);

两个接口的功能分别为批量修改门店名称和单个修改门店名称。

忽略接口中的其他操作,主要执行了以下两句sql。

update Shop set shopName = #{shopName} where shopId in 
<foreach collection="shopIdList" item="shopId" index="index" open="(" separator="," close=")">
            #{shopId}
</foreach>

update Shop set shopName = #{shopName} where shopId = #{shopId}

两个sql可能会修改同个shopId的shopName属性,存在一定的并发问题。

从数据库层看,两个sql的执行过程完全隔离,即先到先执行。

从接口层面看,批量更新接口和增量更新接口的并发执行会遇到以下情况:

  1. 批量接口先于增量接口收到请求,然而由于批量接口中执行了一些额外操作,导致增量接口先执行sql。最终结果被批量接口覆盖。
  2. 接口调用发起方先调用批量接口,再调用增量接口,然而由于网络问题,增量请求先于批量请求到达服务提供方。
  3. 用户先点击批量修改按钮,再修改了单个门店的名称。在分布式系统中,两个请求打到了不同服务器,由于服务器负载不均,导致增量接口的sql先于批量sql执行。
  4. ……

这个例子较为常见,由于分布式,网络,处理速度等原因,用户先发起的请求,可能会被延后。

问题

这里就引出请求顺序的问题,请求A和请求B,到底是哪个先发生。

在分布式系统中,一般很少去关注两个请求哪个先发生,因为:

  1. 多数接口为查询接口,并不关心请求的先后顺序。
  2. 很少存在批量接口和增量接口同时被调用的场景。

当同时使用批量接口和增量接口时,则需要着重关注这个问题。

接口调用示意图如下:

批量接口和增量接口调用顺序

解决思路

考虑到需要区分请求发生的先后,首先想到的是时间戳。

调用发起方在调用批量和增量接口时,增加时间戳入参。

在服务端,将时间戳作为当前sql记录的版本号。

  1. 如果库中的版本号小于入参时间戳,则支持更新。
  2. 如果库中的版本号大于入参时间戳,则不更新。表示已有后发起的请求更新了数据库。

然而,在分布式环境下,时间校准也是个难题。

因为无法保证批量接口和增量接口从同个服务器发起。

不同服务器之间存在时间误差,则无法保证入参时间戳的准确性。

分布式场景如下:

分布式场景

考虑到时间准确性,想到时间协议。

在网络时间协议中,有一种常用的协议,NTP。

其作用是让服务器时间和源服务器时间对齐。

NTP协议的流程图如下:

NTP协议

NTP协议过程:

  1. 客户端向服务器发送请求,并记录客户端时间为T1。
  2. NTP服务器收到请求,记录服务端时间为T2。
  3. 服务端做一些处理,响应客户端请求,并记录服务端时间为T3。
  4. 客户端收到响应,记录客户端时间为T4。

可得:

  1. NTP服务端处理时间为T3 - T2。
  2. 整个过程耗时为T4 - T1。
  3. 得到往返网络延时为(T4 - T1) - (T3 - T2)。
  4. 假设请求网络延时为delay1,响应网络延时为delay2,客户端和NTP服务端的时差为d。
  5. 得到T1 + d + delay1 = T2, T3 - d + delay2 = T4。
  6. 使用等式干申大那多,得到(T2 - T1) + (T3 - T4) = 2d + (delay1 - delay2)。
  7. 在NTP协议中,默认delay1 = delay2,即d = ((T2 - T1) + (T3 - T4)) / 2。
  8. 当网络足够稳定时,delay1约等于delay2。那么,网络越不稳定,误差也就越大。
  9. 在分布式中,不同客户端与NTP服务端之间的网络情况不同,将引入另一个误差因素。

采用方案

查看NTP协议之后,发现其误差为毫秒级别。

NTP意图将所有参与计算机的协调世界时时间同步到几毫秒的误差内。 —— 维基百科

正常情况下,批量接口和增量接口的响应时间为毫秒级,所以NTP协议的误差是不能接受的。

最终采用了一种较为粗暴的方案:

  1. 每条sql记录都有一个版本号,初始值为0。
  2. 在执行批量之前,首先select,查出版本号为verison。
  3. 执行update时,将版本作为参数带上,即update Shop set shopName = #{shopName} where shopId = #{shopId} and version = #{version}
  4. 如果update语句返回结果为1,则表示执行成功;如果返回为0,则表示在批量select和update过程中,已被增量接口修改,即遇到并发问题。
  5. 如遇到并发问题,执行告警操作,并进行人工数据对齐。

因无法确认批量接口和增量借口发生的先后顺序,最终采用了出错告警,人工校对的方案。

该方案low中带着一些粗暴。

换个思维角度,也算是一种乐观并发的思维,乐观地认为批量接口和增量接口很少会出现并发。即使出现并发问题,在服务器之间交错调用后,最终结果有一定概率是正确的。(逃

后记

求比较优雅的,用于解决批量、增量接口并发问题的方案,感激不尽。

上一篇下一篇

猜你喜欢

热点阅读