3.MapReduce框架原理 1- inputformat

2021-10-10 本文已影响0人压缩干粮

image.png

1.工作流程

简述版：inputformat ->mapTask ->reduceTask ->outoutputformat
详细版：inputformat->map(sort ) -> reduce(copy sort reduce) -> outoutputformat

2.inputformat 数据输入

切块：数据在储存在HDFS上时，物理上先进行，按照blocksize进行切块
切片：数据在计算的时候，读取过程，把文件按照按照块的大小进行去划分，这样做是为了防止跨机器去读取数据(并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位)
切片对应的注意点： 1每一个切片都对应着一个MapTask,
2.默认切片的大小就是一个块的大小
3.默认情况下，切片只针对一个文件的本身，不考虑数据的整体

3.inputFormat结构体系(源码解析)

fileInputFormat inputformat的子实现，实现切片逻辑
textInputformat fileInputFormat的子实现类，实现读取数据的逻辑

--getSplits() 负责对文件的切片
--createRecordReader() 负责创建一个RecordReader来进行数据读取
FileInputFormat 负责切片

FileInputFormat .png

TextInputFormat负责读取

TextInputFormat.png
CombineTextInputFormat切片机制(专门用来处理小文件的)
框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。
image.png

4.Partitiner 分区

默认分区
根据当前key的hashcode值和 ReduceTask的数量取余得出分区编号
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
自定义分区
ReduceTask的数量决定分区的数量。
以手机号流量统计案例为例（5个分区）
-- 设置的 ReduceTaskNum > 5 -->不会报错，也不影响分区操作，但是会多出来一个空分区文件。
-- < ReduceTaskNum < 5 会报错，不符合逻辑
-- ReduceTaskNum = 1，走默认规则，就不会走定义的规则。

image.png

上一篇下一篇

猜你喜欢

热点阅读