我爱编程

hadoop-streaming 多路输出

2018-04-17  本文已影响0人  吹洞箫饮酒杏花下

hadoop streaming 中 reducer 的输出文件类似:${outputDir}/part-******,其中 ***** 是 reducer 任务的任务号。但有的时候我们希望 reducer 能够输出到多路文件,例如,对于文件符合某个条件的,输出到 part-*****-A,其余的输出到 part-*****-B。

1. hadoop-v2-u7 的版本为 streaming 引入了两个多路输出的插件:SuffixMultipleTextOutputFormatSuffixMultipleSequenceFileOutputFormat。如果要直接使用这两个插件,需要保证客户端和服务器上的 hadoop 版本均为 hadoop-v2-u7 或者更高

2.写一个jar包,上传进行设置。操作如:https://www.linuxidc.com/Linux/2012-07/66338.htm

上一篇 下一篇

猜你喜欢

热点阅读