51cto赵强HADOOP学习(十)

2017-12-17  本文已影响0人  lehuai

什么是Hive?Hive的体系结构

数据仓库的基本概念

数据仓库(DataWarehouse,DW),是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

Hive是建立在Hadoop HDFS上的数据仓库基础架构。

Hive可以用来进行数据提取转化加载(ETL)

Hive定义了简单的类似SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据

Hive允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer无法完成的复杂的分析工作。

Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。

Hive的表其实就是HDFS的目录/文件

Hive的元数据

Hive 将元数据存储在数据库中(metastore),目前只支持 mysql、derby。

Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等

Hive的体系结构

Hadoop

用 HDFS进行存储,利用 MapReduce 进行计算

元数据存储(MetaStore)

通常是存储在关系数据库如 mysql, derby 中
00000000
上一篇 下一篇

猜你喜欢

热点阅读