HBase——BlockCache(块缓存)缓存机制

2023-03-23  本文已影响0人  小波同学

前言

众所周知,提升数据库读取性能的一个核心方法是,尽可能将热点数据存储到内存中,以避免昂贵的IO开销。现代系统架构中,诸如Redis这类缓存组件已经是体系中的核心组件,通常将其部署在数据库的上层,拦截系统的大部分请求,保证数据库的“安全”,提升整个系统的读取效率。

同样为了提升读取性能,HBase也实现了一种读缓存结构——BlockCache。客户端读取某个Block,首先会检查该Block是否存在于Block Cache,如果存在就直接加载出来,如果不存在则去HFile文件中加载,加载出来之后放到Block Cache中,后续同一请求或者邻近数据查找请求可以直接从内存中获取,以避免昂贵的IO操作。

HBase在实现中提供了两种缓存结构:MemStore和BlockCache。MemStore 作为 HBase 的写缓存,保存着数据的最近一次更新,响应的 BlockCache 作为 HBase 的读缓存,保存着最近被访问的数据块。

HBase中Block的概念

MemStore

//代码中这样,我们的理解为 先顺序写入HLog 再将数据写入MemStore

一、BlockCache

从字面意思可以看出来,BlockCache主要用来缓存Block。需要关注的是,Block是HBase中最小的数据读取单元,即数据从HFile中读取都是以Block为最小单元执行的。

BlockCache是RegionServer级别的,一个RegionServer只有一个BlockCache,在RegionServer启动时完成BlockCache的初始化工作。

HBase 提供了几种 BlockCache 方案:

这3种方案的不同之处主要在于内存管理模式,其中LRUBlockCache是将所有数据都放入JVM Heap中,交给JVM进行管理。而后两种方案采用的机制允许将部分数据存储在堆外。这种演变本质上是因为LRUBlockCache方案中JVM垃圾回收机制经常导致程序长时间暂停,而采用堆外内存对数据进行管理可以有效缓解系统长时间GC。

二、LRUBlockCache

LRUBlockCache是HBase目前默认的BlockCache机制,实现相对比较简单。它使用一个ConcurrentHashMap管理BlockKey到Block的映射关系,缓存Block只需要将BlockKey和对应的Block放入该HashMap中,查询缓存就根据BlockKey从HashMap中获取即可。同时,该方案采用严格的LRU淘汰算法,当Block Cache总量达到一定阈值之后就会启动淘汰机制,最近最少使用的Block会被置换出来。在具体的实现细节方面,需要关注以下三点。

2.1 缓存分层策略

HBase采用了缓存分层设计,将整个BlockCache分为三个部分:single-access、multi-access和in-memory,分别占到整个BlockCache大小的25%、50%、25%。

注意:

缓存分层的好处在于:

如果只使用 LruBlockCache,在内存较大时会存在GC的问题导致服务中断。

2.2 LRU淘汰算法实现

在每次cache block时,系统将BlockKey和Block放入HashMap后都会检查BlockCache总量是否达到阈值,如果达到阈值,就会唤醒淘汰线程对Map中的Block进行淘汰。系统设置3个MinMaxPriorityQueue,分别对应上述3个分层,每个队列中的元素按照最近最少被使用的规则排列,系统会优先取出最近最少使用的Block,将其对应的内存释放。可见,3个分层中的Block会分别执行LRU淘汰算法进行淘汰。

2.3 LRUBlockCache方案优缺点

LRUBlockCache方案使用JVM提供的HashMap管理缓存,简单有效。但随着数据从single-access区晋升到multi-access区或长时间停留在single-access区,对应的内存对象会从young区晋升到old区,晋升到old区的Block被淘汰后会变为内存垃圾,最终由CMS回收(Conccurent Mark Sweep,一种标记清除算法),显然这种算法会带来大量的内存碎片,碎片空间一直累计就会产生臭名昭著的FullGC。尤其在大内存条件下,一次Full GC很可能会持续较长时间,甚至达到分钟级别。Full GC会将整个进程暂停,称为stop-the-world暂停(STW),因此长时间Full GC必然会极大影响业务的正常读写请求。正因为该方案有这样的弊端,之后相继出现了SlabCache方案和BucketCache方案。

三、SlabCache

为了解决LRUBlockCache方案中因JVM垃圾回收导致的服务中断问题,SlabCache方案提出使用Java NIO DirectByteBuffer技术实现堆外内存存储,不再由JVM管理数据内存。

默认情况下,系统在初始化的时候会分配两个缓存区,分别占整个BlockCache大小的80%和20%,每个缓存区分别存储固定大小的Block,其中前者主要存储小于等于64K的Block,后者存储小于等于128K的Block,如果一个Block太大就会导致两个区都无法缓存。和LRUBlockCache相同,SlabCache也使用Least-Recently-Used算法淘汰过期的Block。和LRUBlockCache不同的是,SlabCache淘汰Block时只需要将对应的BufferByte标记为空闲,后续cache对其上的内存直接进行覆盖即可。

线上集群环境中,不同表不同列簇设置的BlockSize都可能不同,很显然,默认只能存储小于等于128KB Block的SlabCache方案不能满足部分用户场景。比如,用户设置BlockSize=256K,简单使用SlabCache方案就不能达到缓存这部分Block的目的。因此HBase在实际实现中将SlabCache和LRUBlockCache搭配使用,称为DoubleBlockCache。在一次随机读中,一个Block从HDFS中加载出来之后会在两个Cache中分别存储一份。缓存读时首先在LRUBlockCache中查找,如果CacheMiss再在SlabCache中查找,此时如果命中,则将该Block放入LRUBlockCache中。

经过实际测试,DoubleBlockCache方案有很多弊端。比如,SlabCache中固定大小内存设置会导致实际内存使用率比较低,而且使用LRUBlockCache缓存Block依然会因为JVM GC产生大量内存碎片。因此在HBase 0.98版本之后,已经不建议使用该方案。

四、BucketCache

SlabCache方案在实际应用中并没有很大程度改善原有LRUBlockCache方案的GC弊端,还额外引入了诸如堆外内存使用率低的缺陷。然而它的设计并不是一无是处,至少在使用堆外内存这方面给予了后续开发者很多启发。站在SlabCache的肩膀上,社区工程师设计开发了另一种非常高效的缓存方案——BucketCache。

BucketCache通过不同配置方式可以工作在三种模式下:heap,offheap和file。

其次支持了多种不同大小的 bucket,以适应不同大小的 block size。可以通过参数 hbase.bucketcache.bucket.sizes 来配置不同 bucket 的大小。默认是14种,大小分别是4、8、16、32、40、48、56、64、96、128、192、256、384、512KB的block(逗号分隔)。并且,在某一大小类型的 Bucket 空间不足的情况下,系统也会从其他 Bucket 空间借用内存使用,不会出现内存使用率低的情况。

实际实现中,HBase将BucketCache和LRUBlockCache搭配使用,称为CombinedBlock-Cache。和DoubleBlockCache不同,系统在LRUBlockCache中主要存储Index Block和Bloom Block,而将Data Block存储在BucketCache中。因此一次随机读需要先在LRUBlockCache中查到对应的Index Block,然后再到BucketCache查找对应Data Block。BucketCache通过更加合理的设计修正了SlabCache的弊端,极大降低了JVM GC对业务请求的实际影响,但其也存在一些问题。比如,使用堆外内存会存在拷贝内存的问题,在一定程度上会影响读写性能。当然,在之后的2.0版本中这个问题得到了解决,参见HBASE-11425。

相比LRUBlockCache,BucketCache实现相对比较复杂。它没有使用JVM内存管理算法来管理缓存,而是自己对内存进行管理,因此大大降低了因为出现大量内存碎片导致Full GC发生的风险。鉴于生产线上CombinedBlockCache方案使用的普遍性,下文主要介绍BucketCache的具体实现方式(包括BucketCache的内存组织形式、缓存写入读取流程等)以及配置使用方式。

五、ExternalBlockCache

ExternalBlockCache 提供使用外部的缓存服务来进行缓存,如 memcached 和 redis 等。

更具体的缓存细节参考 HBase BlockCache源码

六、HBase 读路径

总结,HBase 读路径为,首先检查 MemStore,然后检查 BlockCache,最后检索 HFile,并且合并一条数据的信息(read merge)返回给客户端。

七、BucketCache详解

7.1 BucketCache的内存组织形式

上图所示为BucketCache的内存组织形式,图中上半部分是逻辑组织结构,下半部分是对应的物理组织结构。

HBase启动之后会在内存中申请大量的Bucket,每个Bucket的大小默认为2MB。每个Bucket会有一个baseoffset变量和一个size标签,其中baseoffset变量表示这个Bucket在实际物理空间中的起始地址,因此Block的物理地址就可以通过baseoffset和该Block在Bucket的偏移量唯一确定;size标签表示这个Bucket可以存放的Block大小,比如图中左侧Bucket的size标签为65KB,表示可以存放64KB的Block,右侧Bucket的size标签为129KB,表示可以存放128KB的Block。

HBase中使用BucketAllocator类实现对Bucket的组织管理。

7.2 BucketCache中Block缓存写入、读取流程

下图所示是Block写入缓存以及从缓存中读取Block的流程,图中主要包括5个模块:


BucketCache中Block缓存写入及读取流程

Block缓存写入流程如下:

Block缓存读取流程如下

参考:
https://www.shuzhiduo.com/A/x9J2LNrKd6/

https://blog.csdn.net/Shockang/article/details/125951824

https://segmentfault.com/a/1190000023408296

https://blog.csdn.net/weixin_42073408/article/details/119637260

https://www.cnblogs.com/zackstang/p/10061379.html

上一篇 下一篇

猜你喜欢

热点阅读