Hadoop大数据平台实战：Linux实战安装HBase，并保存

2019-06-29 本文已影响13人 bd8941f5f5cc

Apache HBase开源免费的Hadoop数据库，使用Java开发的，是一个分布式，可扩展的NoSQL数据库。本文会详细介绍HBase原理、架构、新特性、Linux环境下的安装，安装模式，表创建，简单的CRUD操作。

1、HBase数据库介绍

HBase是开源NoSQL数据库，主要用于大数据平台。受启发于谷歌在2006年发表了一篇关于Big Table的论文。当我们需要对大数据进行随机，实时读/写访问时，可以使用Apache HBase。 HBase可以托管非常大的表 - 数十亿行X百万列，存储大规模不规则的数据集。

Apache HBase是一个开源的，分布式的，版本化的NoSQL非关系数据库，模仿Google的Bigtable数据库：Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样，Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。

在这里还是要推荐下我自己建的大数据学习交流群:522189307，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。

2、HBase新特性

1）线性和模块化可扩展性。

2）严格一致的读写操作。

3）自动分区，分表的自动和可配置分片

4）RegionServers之间的自动故障转移支持。

5）方便的基类，用于使用Apache HBase表支持Hadoop MapReduce作业。

6）易于使用的Java API，用于客户端访问。

7）阻止缓存和布隆过滤器以进行实时查询。

8）查询谓词通过服务器端过滤器下推

9）Thrift网关和REST-ful Web服务，支持XML，Protobuf和二进制数据编码选项

10）可扩展的基于jruby（JIRB）的Shell客户端

11）支持通过Hadoop指标子系统将指标导出到文件或Ganglia; 或通过JMX

3、HBase发展历史

谷歌在2006年发表了一篇关于Big Table的论文，

HBase最初是由Powerset公司开展的一个项目，因为需要处理大量数据以用于自然语言搜索。并在2006年底开始了HBase的开发。

2007年创建的HBase原型为Hadoop contrib，第一个可用的HBase在2007年发布。

2008年，Hadoop成为Apache顶级项目，HBase成为其子项目。

此外，HBase 0.18,0.19于2008年10月发布。

2010年，HBase成为Apache顶级项目。

HBase 0.92于2011年发布。最新版本为0.96。

Facebook于2010年11月选择使用HBase实施其新的消息传递平台，但在2018年从HBase迁移出来。

截至2017年2月，1.2.x系列是目前的稳定版本。

2019年目前最新的版本是2.1.4版本。

4、HBase架构

HBase采用分布式架构，底层使用HDFS存储数据，支持区域RegionServer机制，自动分区扩展集群，支持大数据扩展。存储数据采用列族ColumnFamily模式。在HBase中，表被分成区域并由区域服务器提供不同的存储服务。区域按列族垂直划分为“存储区”。存储区在HDFS中保存为独立的文件。下面显示的是HBase的分布式存储架构。