MapReduce
2019-03-28 本文已影响0人
王龙江_3c83
1. 应用开发
1.1 词频统计
1.2 计算每年的最高温度
1.3 全排序
如何用 Hadoop 产生全局有序的文件?最简单的方法是使用一个分区(a single partition)。替代方案:首先,创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要的思路是使用一个 partitioner 来描述全局排序的输出。
1.4 二次排序
1.5 大小表连接
1.6 大大表连接
4. 数据类型和格式
4.1 MapReduce 的数据类型
4.2 输入格式
格式 | 功能 |
---|---|
DBInputFormat | 用于使用 JDBC 从关系型数据库中读取数据。 |
DBOutputFormat | 将作业输出数据转储到数据库中。 |
MultipleInputs | |
TableInputFormat | 让 MapReduce 操作存放在 HBase 表的数据。 |
TableOutputFormat | 把 MapReduce 的输出写入到 Hbase 表。 |