HBase读操作

2020-12-29 本文已影响0人掩流年

对于HBase而言读取操作有两种，即get和scan。按实现上来看的话，get请求也是一种scan请求，相当于scan长度为1的请求。对于HBase而言，使用Java API，简单的读流程如下所示

get请求

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "tablename");
Get get = newGet(Bytes.toBytes("row1"));
get.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"));
Result result = table.get(get);byte[] val =result.getValue(Bytes.toBytes("colfam1"),Bytes.toBytes("qual1"));

scan请求

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...

Table table = ...      // instantiate a Table instance

Scan scan = new Scan();
scan.addColumn(CF, ATTR);
scan.setRowPrefixFilter(Bytes.toBytes("row"));
ResultScanner rs = table.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
    // process result...
  }
} finally {
  rs.close();  // always close the ResultScanner!
}

scan框架的设计

如果你使用过Redis的scan操作，就知道在Redis中，scan并不会一次性加载所有数据到客户端。尽管Redis的Scan和HBase Scan之间的设计差异很大。但是总体来看，HBase的scan采用的限制一次性RPC传输数据量，分多次请求服务端获取数据。这样做的目的有两点：

当数据量过大的查询容易引起客户端内存溢出。
压缩RegionServer端的机器性能，导致其他业务收到影响。

对于scan来说，具体的操作即rs.next()，如果查询到客户端的缓存中有值则直接返回，若未查询到则向Server进行RPC请求，默认情况下，一次RPC请的数据量大小为2G。

区间切分

在客户端请求服务端获取数据的过程中，首先从ZooKeeper中获取元数据hbase:meta表所在的RegionServer。如果一个scan请求需要在多个region上请求数据的话，客户端在请求前会先对查询区间进行切分。如

scan操作需要查询区间为["b", "f")，这时候有三个region，startkey和endkey的区间为["a", "c")，["c", "e")，["e","g")。这时候客户端会进行切分，把scan操作的查询区间切分为"b", "c")，["c","e")，["e", "f ")。

读流程

Scanner的核心体系包括三层Scanner：RegionScanner，StoreScanner，MemStoreScanner和StoreFileScanner。

关系图如下

Scanner关系图

通过这三层scanner定位到了具体的HFile，接下来要做的就是过滤操作，具体的有Time Range过滤、Rowkey Range过滤以及布隆过滤器。

Scan的过滤流程因为StoreFile中的数据K-V数据都是有序排列的，所有范围性的过滤可以直接查找到范围。
在查找到具体的StoreFile文件之后，就是通过查询HFile的索引，查找到对应的Data Block。
HFile的结构如下图

HFile

可以看到个HFile文件中，都对应着多个Data Block。要查找到对应的Data Block。需要先查询Root IndexBlock去获得地址信息。Root IndexBlock因为常驻在内存中，所以这个查询过程非常快。具体的查询思路是二分法，如查询的rowkey为fc，第一次查询范围是[aa-ee)，第二次为[dd-ff)，第三次为[fa-ff)，正好这个一个Data Block的范围。
之后会把Data Block加载到内存中，然后循环遍历查找到对应的数据。
可以看出，因为多层Index都需要加载到内存中，所以一次查询的IO正常为3次。但是实际上HBase为Block提供了缓存机制，可以将频繁使用的Block缓存在内存中，以便进一步加快实际读取过程。

最后这些读到的数据会被放入一个优先队列中，根据key进行排序。然后依次返回给客户端。

其他优化

当然，HBase也提供了像BlockCache以及MemStore的读写缓存。可以大大优化读效率，具体细节，此篇不做展开。

HBase读操作

scan框架的设计

区间切分

读流程

其他优化

猜你喜欢

热点阅读