[译]Hive学习指南（一）

2017-05-19 本文已影响33人 steanxy

Hive是什么

Hive是基于Apache Hadoop的数据仓库。Hadoop提供了在商用硬件上存储和处理大量数据的能力，并且具有容错机制。

Hive能够让大数据的汇总，即时查询和分析变得更加简单。Hive提供了SQL，用户可以很方便地进行即时查询，数据汇总和分析。同时，Hive的SQL给用户提供了很多空间去集成定制的分析功能，如User Defined Functions (UDFs)。

Hive不是什么

Hive不适合用于在线事务处理。Hive最适合用于传统的数据仓库任务。

入门

安装Hive，HiveServer2和Beeline的详细介绍，请参见GettingStarted。

Books about Hive罗列了一些Hive入门的书籍。

数据单元

按照粒度的顺序，Hive数据组织如下：

Databases：起到命名空间的作用，用于避免表，视图，分区和列等发生命名冲突。数据库也用于对用户或用户组实行安全性控制。
Tables：拥有相同模式的数据单元。如page_views表，每一行都包含了下面的列（模式）：
- timestamp—INT类型，对应于浏览页面的UNIX时间戳。
- userid—BIGINT类型，浏览页面的用户标识。
- page_url—STRING类型，页面的url。
- referer_url— STRING类型，用户从哪个页面访问到当前页面。
- IP—STRING类型，访问页面的IP地址。
Partitions：每个表都可以有一个或多个partition keys，用于确定数据如何存储。除了存储单元之外，分区还允许用户有效地识别满足特定标准的行；例如，STRING类型的date_partition和country_partition。partition keys的每个唯一值都定义了表的一个分区。例如，所有从"2009-12-23"开始的"US"数据就是page_views表的一个分区。因此，如果只想分析"2009-12-23"的"US"数据，可以只对表的相关分区进行查询，从而大大加快分析的速度。需要注意的是，命名为"2009-12-23"并不代表它包含了从该日期起的所有数据或者只有该日期的数据；为了方便，分区用日期命名；保证分区名称和数据内容之间的关系是用户的工作！分区列是虚拟列，它们并不是数据本身的一部分，但是会在加载时派生出来。
Buckets(or Clusters)：每个分区的数据可能会根据表中某些列的哈希值依次划分到Buckets中。例如，page_views表可能会用userid划分bucket，userid是page_views表的一列，不是分区列。Buckets可用于有效地抽样数据。

表不是必须进行分区或分桶，但是这些抽象可以使让系统在处理查询时修剪掉大量数据，从而更快地执行查询。

类型系统

Hive支持基本数据类型和复杂数据类型，如下所述。查看Hive Data Types可以得到更多信息。

基本类型

类型与表中的列相关联，下面是Hive支持的基本类型：

整数
- TINYINT—1字节整数
- SMALLINT—2字节整数
- INT—4字节整数
- BIGINT—8字节整数
布尔值
- BOOLEAN— TRUE/FALSE
浮点数
- FLOAT— 单精度浮点数
- DOUBLE— 双精度浮点数
定点数
- DECIMAL— 用户定义的定点值
字符串
- STRING— 特定字符集的字符序列
- VARCHAR— 特定字符集的字符序列，可设置最大长度
- CHAR— 特定字符集的字符序列，可设置固定长度
日期和时间
- TIMESTAMP— 特定时间点，可达到纳秒精度
- DATE— 日期
二进制
- BINARY— 字节序列

复杂类型

复杂类型可以从基本类型和其它组合类型构建：

Structs：其中的元素使用(.)来访问。如，STRUCT {a INT; b INT}类型的列c，使用c.a访问其中的字段。
Maps(key-value元组)：其中的元素使用 ['element name']来访问。如，M是包含了'group' -> gid的映射，gid的值用M['group']访问。
Arrays(带索引的列表)：其中的元素都是相同类型的。使用[n]访问元素，n是从0开始的数组索引。如，数组A为['a', 'b', 'c']，A1就是'b'。

使用基本类型和结构体来创建复杂类型，任意层级嵌套的类型都可以创建。如，User类型可能包含下面的字段：

gender—字符串
active—布尔值