Hive Tour

[译]Hive学习指南(一)

2017-05-19  本文已影响33人  steanxy

Hive是什么

Hive是基于Apache Hadoop的数据仓库。Hadoop提供了在商用硬件上存储和处理大量数据的能力,并且具有容错机制。

Hive能够让大数据的汇总,即时查询和分析变得更加简单。Hive提供了SQL,用户可以很方便地进行即时查询,数据汇总和分析。同时,Hive的SQL给用户提供了很多空间去集成定制的分析功能,如User Defined Functions (UDFs)。

Hive不是什么

Hive不适合用于在线事务处理。Hive最适合用于传统的数据仓库任务。

入门

安装Hive,HiveServer2和Beeline的详细介绍,请参见GettingStarted

Books about Hive罗列了一些Hive入门的书籍。

数据单元

按照粒度的顺序,Hive数据组织如下:

表不是必须进行分区或分桶,但是这些抽象可以使让系统在处理查询时修剪掉大量数据,从而更快地执行查询。

类型系统

Hive支持基本数据类型和复杂数据类型,如下所述。查看Hive Data Types可以得到更多信息。

基本类型

类型与表中的列相关联,下面是Hive支持的基本类型:

复杂类型

复杂类型可以从基本类型和其它组合类型构建:

使用基本类型和结构体来创建复杂类型,任意层级嵌套的类型都可以创建。如,User类型可能包含下面的字段:


上一篇下一篇

猜你喜欢

热点阅读