缓存双写一致性

2018-10-30 本文已影响209人 jiangmo

一般套路

缓存由于其高并发和高性能的特性，已经在项目中被广泛使用。一般读缓存流程如下：

缓存更新的争议

主要是解决并发情况下缓存读与写的一致性和时效性
一缓存不能读到脏数据
二缓存可能会读到过期数据，但要在可容忍时间内实现最总一致
三这个可容忍时间尽可能的小

基本核心套路（当然有很多变种，但主要思想如此）：

先更新数据库，再更新缓存
先删除缓存，再更新数据库
先更新数据库，再删除缓存
为什么没有先更新缓存，再更新数据库这种策略（ram、rom）

一、先更新数据库，再更新缓存

问题：同时有请求A和请求B进行更新操作，可能出现
（1）线程A更新了数据库 key = 1 value = 2
（2）线程B更新了数据库 key = 1 value = 3
（3）线程B更新了缓存 key = 1 value = 3
（4）线程A更新了缓存 key = 1 value = 2

这就出现请求A更新缓存应该比请求B更新缓存早才对，但是因为网络等原因，B却比A更早更新了缓存。这就导致了脏数据

方法：

更新缓存数据时判是否最新（如增加版本号）
只有比缓存中的新才可更新，否则不管（版本号大于当前版本号才可更新）

二、先删除缓存，再更新数据库

问题：同时有一个请求A进行更新操作，一个请求B进行查询操作。可能出现:
（1）请求A进行写操作（key = 1 value = 2），先删除缓存 key = 1 value = 1
（2）请求B查询发现缓存不存在
（3）请求B去数据库查询得到旧值 key = 1 value = 1
（4）请求B将旧值写入缓存 key = 1 value = 1
（5）请求A将新值写入数据库key = 1 value = 2

如果不采用给缓存设置过期时间策略，该数据永远都是脏数据

方法：

先删除缓存，再更新数据库，再回写缓存（出现套路一的情况）
先删除缓存，再更新数据库，再删缓存（双删，第二次删可异步）

数据库读写分离，本地缓存都不再适用，数据一致性需要用到远程数据同步

三、先更新数据库，再删除缓存

有两篇参考：《Cache-Aside pattern》、《Scaling Memcache at Facebook》
主要的思路就是先更新数据库，再删缓存的策略。

问题：一个请求A做查询操作，一个请求B做更新操作，可能情况

（1）缓存刚好失效
（2）请求A查询数据库，得一个旧值
（3）请求B将新值写入数据库
（4）请求B删除缓存
（5）请求A将查到的旧值写入缓存

如果发生上述情况，确实是会发生脏数据。然而，发生这种情况的概率又有多少呢？
我们知道一般来说读比写快很多，这一情形很难出现。

二、三套路的共性问题：删缓存失败了怎么办？

方案一

方案缺点：

引入中间件，增加复杂度
对业务线代码造成大量的侵入

方案二

启动一个订阅程序去订阅数据库的binlog，获得需要操作的数据。在应用程序中，另起一段程序，获得这个订阅程序传来的信息，进行删除缓存操作。

mysql中有现成的中间件叫canal，可以完成订阅binlog日志的功能。
另我团的DataBus更强大。

四、缓存的不适用场景

写多：如果新增、修改、删除比较多，则需慎用缓存，因为缓存会频繁的更新会很浪费性能。
大Key/Value：大到会影响GC、swap，最好别用。