MapReduce

2019-03-28  本文已影响0人  王龙江_3c83

1. 应用开发

1.1 词频统计

1.2 计算每年的最高温度

1.3 全排序

如何用 Hadoop 产生全局有序的文件?最简单的方法是使用一个分区(a single partition)。替代方案:首先,创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要的思路是使用一个 partitioner 来描述全局排序的输出。

1.4 二次排序

1.5 大小表连接

1.6 大大表连接

4. 数据类型和格式

4.1 MapReduce 的数据类型

4.2 输入格式

格式 功能
DBInputFormat 用于使用 JDBC 从关系型数据库中读取数据。
DBOutputFormat 将作业输出数据转储到数据库中。
MultipleInputs
TableInputFormat 让 MapReduce 操作存放在 HBase 表的数据。
TableOutputFormat 把 MapReduce 的输出写入到 Hbase 表。

4.3 输出格式

参考资料

实战代码

上一篇下一篇

猜你喜欢

热点阅读