大数据hadoop 分布式计算框架（八）semijoin，dis

2019-05-27 本文已影响0人板绘原画

标题：mapreducer 編程，semijoin，distributedcache 使用，排序，writableComparator 使用

1. semijoin，distributedcache使用

semijoin的意思是在mapper端进行连接适合数据集小（一般为比较小的字典文件）与数据集大的连接。因为数据已经在maper端join了所以不需要运行reducer

使用时在客户端用-Dmapreduce.job.cache.files或者-files通过命令行指定本地文件地址或者hdfs上的文件地址

过程是客户端先把本地文件上传到HDFS（如果指定的是HDFS路径则省略这步），各运行任务节点再从HDFS把文件下载到本地，并创建指向文件的软连接，然后通过软链接访问这个文件，任务运行完成会删除这个软链接

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：606859705，有大量干货（零基础以及进阶的经典实战）分享给大家，让大家了解到目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！