hadoop笔记6--HBase简介
HBase是Apache基金会的一个项目,是一个分布式可扩展的NoSQL数据库,提供了对结构化、半结构化、甚至非结构化大数据的实时读写和随机访问能力。
要说HBase在Hadoop中的地位,简单来说就是:
HBase之于HDFS就类似于数据库之于文件系统。
这里就来简单介绍一下HBase。
首先呢,先来看看我们用HBase的功能:
首先它是Hadoop的数据库,能够进行存储数据和检索数据。
与关系型数据库MySQL那些相比呢,它能够存储上亿级的海量数据,而且在海量数据上检索速度能达到准实时,秒级别。
它是基于HDFS的,因此HDFS的优势它都拥有,比如数据安全性等。
和Hive相比,Hive主要是基于mapreduce的,通过类SQL语句分析数据用的;而HBase主要就是检索数据用了。
HBase表中的数据可以进行快速查询,关键在于表中的rowkey的设计。只要能快速的定位rowkey, 就能实现快速的查询。
而且HBase的机制是数据先写入到内存中,当数据量达到一定的量(如128M),再写入磁盘中, 在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,因此可以进行实时查询。
借助网上看到的一幅图来表示Hadoop EcoSystem中的各层系统:
Hadoop Ecosystem其中,HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。
另外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。
先不看其他的东西,现在先看看HBase作为数据库长的是什么样子。
HBase的数据模型
我们就先来看看HBase的基本数据模型。HBase表示一个分布式多维表,在数据模型定义上是一个3元组:{行关键字,列族和列名,时间戳}。HBase通过它们来进行索引和查询定位。
下面是一个例子:
HBase表的示例
在HDFS存储中,上表其实对应的是一组键值对,比如key3行CompanyInfo、Name下t2时间戳下的数值:company2,存储时的完整键值对为:
{key3,CompanyInfo,Name,t2}-->company2
也就是说HBase中并不存在行列这样的概念,在实现时只认为存在键值对这样的概念。那个value实际上是以byte数组的形式存储。
1.行关键字(row key)
HBase一张表可以有上亿行记录,每一行都是由一个行关键字来标识。表中的记录默认按照行关键字升序排序。
2.列族(Column Family)和列名(Column Name)
HBase每张表都有一个或多个列族,而列族相当于一个容器,每个列都必须归属于某个列族。一个列族中可以由任意多个列组成,列族支持动态扩展,无需预先定义列的数量以及类型,所有列均以二进制格式存储,用户需要自行进行类型转换。所有的列族成员的前缀是相同的,例如“abc:a1”和“abc:a2”两个列都属于abc这个列族。
3.时间戳(Timestamp)
每次数据操作对应的时间戳,可以看作是数据的版本号。
</br>
而上面三者合起来就构成了一个单元格(Cell):这个是表存储数据的单元。由{行健,列(列族:列名),时间戳}唯一确定。
HBase的基本构架
接下来看看HBase的基本组成结构。
HBase的基本构架HBase也是分布式的集群,因此还是会分为主节点和从节点,而这两者就是HBase的主要两个部分:HBase Master(作主节点)和HBase Region Server(做从节点)。
Master是HBase集群的主控服务器,负责集群状态的管理维护;Region Server是HBase具体对外提供服务的进程,就是主要负责数据的检索等。
另外Hbase集群由zookeeper来监控。在伪分布模式下Hbase会开启自带的zookeeper。
再来看一幅HBase总体组成结构图:
总体结构图首先,HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。主要包括两种文件类型:
- HFile, HBase中KeyValue数据的存储格式。
- HLogFile,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File。
接着,可以看到,在一个Region server cluster里面有多个Region Server,其中Region Server又包含了很多Region,而Region是HBase调度的基本单位,多个Region能组成一个真正的Table,如下图:
Table而每一个Region内部里面又有一系列Store。每个Store里面又是由memStore和StoreFile两个部分组成,其中StoreFile是最终的数据,它是对HFile的轻量级包装,存储到HDFS中;而memStore不论在Store是否有真实数据都将会有,在内存当中。
HBase可以看做HDFS文件系统上的数据库,有着海量数据存储、快速随机访问和大量写操作的应用的优点,常用在互联网搜索引擎数据存储、审计日志系统、实时系统、内容服务系统当中。
以上简单介绍了HBase,下一篇准备看看HBase的安装和它的基本用法。
(PS:以上的图示均来自《深入理解大数据》一书。)