9.HADOOP组件Hbase

2017-08-31 本文已影响0人经纶先生

HBASE 是一个在HDFS上开发的面向列的分布式的NOSQL数据库
像mysql这种是面向行的非分布式数据库
MYSQL叫做行式存储，比如一条insert语句，其实就是在这个表中增加了一行，而表的字段就是列，举例：

mysql 行式存储

HBASE是为实时随机访问超大规模数据集设计的，区分于HIVE的实时性很差。

虽然数据的存储和检索的实现可以选择很多不同的策略，但是绝大多数解决办法特别是关系型数据库不是为大规模可伸缩的分布式处理设计的。

很多厂商提供了复制（replication）和分区（partition）的解决方案，让数据库可以从单个节点上扩展出去，但是这些附加的技术都属于“事后的解决办法”，而且非常难以安装和维护，并且需要牺牲一部分关系型数据库的特性，比如mysql 提供了主从复制的策略，但是有太多不足

Hbase从另一个方向来解决可伸缩的问题。它自底向上的构建，能够简单的通过增加节点来达到线性扩展
Hbase并不是关系型数据库，不支持SQL。

Hbase原理简单说明：

Hbase 把数据存放在带标签的表中，表由行和列组成。
表格的单元格（cell）由行和列的坐标交叉决定，但是是有版本的。默认情况下，版本号是自动分配的，为Hbase插入单元格的时间戳

Mysql的一个单元格就能存储一个数据，但是Hbase的单元格是带版本号的，版本号是自动分配的，一般为写入这个cell的时间戳，所以Hbase的一个cell是可以存储多个版本数据的，
我们访问这个数据时，会给我们最新版本的数据，但是我们可以访问这个cell之前时间的版本数据。
但是如果我们把每个版本都存储下来，会占用大量资源，所以一般只建议保留几个版本。
在Hbase上我们拥有了时光机器

HBASE cell 示意图

两个硬性指标：
A．Hbase中行键一定是表的主键
B．所有对表的访问都要表的主键，也就是行键来排序
但是具有相似属性的列叫做列族（column family）
同一个列族的所有成员具有相同的前缀。因此像列 USER.name 与USER.age 都是列族USER的成员。
一个表的列族必须作为表模式定义的一部分预先给出
（就是说在Hbase里你创建表的时候就要预先定义好列族，后期不能修改和增加啦，但是可以在已经存在的列族里添加列）

下面我们看一个例子：

为了更好的理解HBase表的思路，先回顾一下关系数据库中表的处理方式
例如有一个用户表user_info，有字段：id、name、tel，表名和字段需要在建表时指定

create table user_info (

    id 类型,

    name 类型,

    tel 类型

)

然后插入两条数据

insert into user_info values(...)

表结构如下：

id	name	tel
1	小明	123
2	小王	456

我们对比来看一下Hbase的表结构：
建表时要指定的是：表名、列族

row_key	base_info	ext_info
...	...	...
...	...	...

建表语句
create 'user_info', 'base_info', 'ext_info'
意思是新建一个表，名称是user_info，包含两个列族base_info和ext_info
列族是列的集合，一个列族中包含多个列
这时的表结构：

row_key	base_info	ext_info
...	...	...
...	...	...

row key 是行键，每一行的ID，这个字段是自动创建的，建表时不需要指定,当然也可以手动指定

插入一条用户数据：name为‘a’，tel为‘123’

插入语句

put 'user_info', 'row1', 'base_info:name', 'a'
put 'user_info', 'row1', 'base_info:tel', '123'

意思是向user_info表中行健为row1的base_info列族中添加一个列，列名称为name，name列的值是a，接着又添加了一列tel，tel列添加值123
name和tel就是列，属于base_info这个列族
这时的表结构：

Hbase表结构

再插入一条数据：name为‘b’，addr为‘beijing’

put 'user_info', 'row2', 'base_info:name', 'b'
put 'user_info', 'row2', 'ext_info:addr', 'bj'

Hbase表结构图2

HBase表中还有一个重要概念：版本，每个字段的值都有版本信息（通过时间戳指定）
例如 base_info:name，每次修改时都会保留之前的值，就是说可以取到他的旧值

Hbase cell 版本示意图

Hbase 区域的概念：

HBase 是一个NoSQL数据库，用于处理海量数据，可以支持10亿行百万列的大表，但是表特别大怎么存储呢？
Habse自动把表水平划分为区域，每个区域由表中行的子集构成
每个区域由它所属于的表，它所包含的第一行及其最后一行（不包括这行来表示）。
一开始，一个表只有一个区域，但是随着区域开始变大，等到他超出设定的大小阈值，便会在某行的边界上把表分成两个大小基本相同的新分区

在第一次划分之前，所有的数据都放在原始区域所在的那台服务器上。随着表变大，区域的个数也会增加。
区域是在Hbase集群上的最小单位。
用这种方式，一个因为太大而无法放在单台服务器上的表会被放置到服务器集群上，其中每个节点都负责管理表所在区域的一个子集。

Hbase的容错及备份

上面我们介绍了hadoop的表的区域划分，把表切割后放置在不同的节点上，但是我们思考一个问题，如果其中一台机器挂掉会如何？？
如果只是按照上面的逻辑，那么肯定这个表的数据会变得不完整

HDFS有namenode和datanode
Mapreduce有jobtracker与tasktracker
Hbase也采用了类似的模型，他利用一个master节点协调管理一个或者多个regionserver

Region翻译：（区域，地区）

HMaster：
Hmaster负责启动一个全新的安装，把区域分配给注册的regionserver，如果regionserver出现问题，也负责恢复regionserver的故障，所以Master的负载很轻
regionserver：
regionserver负责0个或者多个区域的管理以及相应客户端的读写请求。
Zookeeper：
Hbase依赖于zookeeper
如果在区域的分配过程中有服务器崩溃，就可以通过zookeeper来进行分配协调。在zookeeper上管理事物分配的状态有助于在恢复时能够从崩溃服务器遗留的状态继续分配
当然为了避免单点故障，zookeeper也有集群
HBase Master高可用（HA）：
HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。
所以这里要配置HBase高可用的话，只需要启动两个HMaster，让Zookeeper自己去选择一个Master Acitve。

Hbase 整体示意图

图片 12.png

Hbase 简单操作

Hbase shell 进入 hbase的交互界面
List 查看hbase数据库有哪些表

Scan “表名“ 扫描表中所有数据，不建议这么做

Get “表”，“rowkey”
get 'DayPriceIndex', '0000011498060800'

本文只是简单介绍HBase原理，Hbase更多操作，参见本文集后期文章