MapReduce

2017-10-09  本文已影响0人  狼牙战士
MapReduce应用案例

http://blog.csdn.net/lilianforever/article/details/51871944
1.统计文件中单词的频率
2.数据去重,去掉重复出现的数据
3.数据排序,对输入的数据按照一定顺序排列
4.单表关联,要求从给出的数据中寻找所关心的数据
http://www.cnblogs.com/shishanyuan/p/4646654.html
5.求各个部门的总工资
6.求各个部门的人数和平均工资
7.求每个部门最早进入公司的员工姓名
8.求各个城市的员工的总工资
9.列出工资比上司高的员工姓名及其工资
10.列出工资比公司平均工资要高的员工姓名及其工资
11.列出名字以J开头的员工姓名及其所属部门名称
12.列出工资最高的头三名员工姓名及其工资
13.将全体员工按照总收入(工资+提成)从高到低排列

首先给出一个问题:如何实现多个文件的词频统计?

一、MapReduce介绍

MapReduce是一种用来处理数据的编程模型,它的优势在于处理大规模数据集。MapReduce任务分为两个阶段:map阶段和reduce阶段。每个阶段都以键值对<key,value>作为输入和输出。作为开发者,需要写两个函数:map函数和reduce函数。

MapReduce执行流程描述:
问题:combiner、partition、shuffle?
二、MapReduce工作机制
MapReduce 1
上一篇 下一篇

猜你喜欢

热点阅读