大数据Hive在简书hbase

HBase学习(一)——入门

2019-08-09  本文已影响20人  大数据阶梯之路

一、什么是HBase?特性

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,基于Hadoop,建立在HDFS上。HBase是为了解决HDFS上能存结构化的数据却不能处理这些数据的情况,实际上就是实现了HDFS的随机读写,比如当删除一个数据是对数据做一个标记,并未真正删除,当然用户就看不到被标记的数据,真正删除的时候是在合并文件的时候才识别删除标记把数据删除掉。

大数据组件图.png

二、HBase架构解析

图很重要.png

一个HRegion大致可以当成一张表来看待,一个Store大致可以当成一个列族来看待,当表数据量很大的时候,会按数据把HRegion进行切分分配给不同的HRegionServer。使用HBase时需要有HDFS和ZK,就要启动hadoop和zookeeper组件。

其中各组件在HBase中的作用

三、HBase数据结构

四、HBase读写原理

新版和旧版有区别,0.98版本前还有一张-ROOT-表,所以读步骤就加多一步,就是在寻找meta表前先去找-ROOT-表,从-ROOT-表获取meta表的位置。还有hbase读操作比写操作反而慢。

还可以配置compact操作,当达到多少个小文件时或者达到多少天时就进行合并成一个新的大文件。合并是Store级别的列族合并。

附学习文章:
1、为什么出现了HBase?
2、一图了解HBase
3、hbase中storefile、hfile、store、region的关系

上一篇下一篇

猜你喜欢

热点阅读