无标题文章

2016-07-27  本文已影响13人  pennNnng

Hive 学习笔记

学习笔记

Hive 简介

Hive 是建立在 Hadoop 上的数据仓库基础构架,可以用来进行数据提取转化加载。

Hive 架构

Hive 特点

可以调用 python

CREATETABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROWFORMAT DELIMITED
FIELDSTERMINATED BY ‘\t’;
add FILEweekday_mapper.py;
INSERTOVERWRITE TABLE u_data_new

join 时,每次map/reduce 任务的逻辑

reducer 会缓存 join 序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)

上一篇 下一篇

猜你喜欢

热点阅读