走进大数据之Hive入门

2016-08-23  本文已影响0人  Derrick_Xu

学习目标

Hive是构建在Hadoop之上的数据仓库,它的本质是就是一个数据库

① Hive和一般意义上的数据库有什么区别
② 如何搭建数据库
③ 创建的过程是什么
④ 如何把数据导入到数据库
⑤ 什么是Hive,Hive的体系结构是什么
⑥ Hive如何与hadoop HDFS进行相互操作
⑦ Hive数据与Hadoop中的文件之间的关系

一 数据仓库

1.基本概念

概念:数据仓库是一个面向主题的,集成的,不可更新的,随时间不变化的数据集合,它用于支持企业或组织的决策分析处理
面向主题:按主题组织(商品推荐系统)
集成:数据仓库中的数据来自于分散的操作型的数据(oracle,mysql)
不可更新:只做数据查询,一般不做数据更新,删除

2.数据仓库的结构和建立过程

Paste_Image.png

ETL

抽取Extract:提取不同数据源的数据
转化Transform:转化格式,不同数据源的数据格式可能不一致
装载Load:将满足数据格式的数据装载到数据仓库

OLTP:联机事务处理(银行转账,扣钱和加钱的动作应该同时完成,不能只有扣钱没有加钱,或者只有加钱,没有扣钱)操作频率很高
OLAP:联机分析处理(商品推荐系统,一般只做查询,不做更新插入操作)

3.数据仓库中的数据模型

星型模型,雪花模型

以商品信息为核心构建的星型模型

星型模型 雪花模型

二、Hive

1.基本概念

  • Hive是建立在Hadoop HDFS上的数据仓库基础架构

2.Hive的体系结构

元数据 Paste_Image.png Paste_Image.png Hive体系结构
上一篇下一篇

猜你喜欢

热点阅读