玩转大数据大数据大数据,机器学习,人工智能

大数据入门与实战-Hadoop生态圈技术总览

2019-03-08  本文已影响24人  致Great

1 Hadoop生态圈技术纵览


2 分布式概念

3 HDFS 读写过程

HDFS 读过程
HDFS 写过程

4 伪分布式集群

5 MapReduce

MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:

MapReduce教程:MapReduce的字数统计示例
让我们通过一个示例来了解MapReduce是如何工作的,有一个 名为example.txt的文本文件,其内容如下:

Dear, Bear, River, Car, Car, River, Deer, Car ,Bear

现在,假设我们必须使用MapReduce对sample.txt执行单词统计,将找到这些单词和每个单词出现的次数。


参考资料

MapReduce Tutorial – Fundamentals of MapReduce with MapReduce Example
https://www.cniao5.com/

上一篇下一篇

猜你喜欢

热点阅读