154、Spark内核原理进阶之distinct算子内部实现原理
2019-01-24 本文已影响0人
ZFH__ZJ
distinct.png
distinct算子的原理
- 首先,自己先给每个值打上一个v2,变成一个tuple
- reduceByKey(...仅仅返回一个value)
- 将去重后的数据,从tuple还原为单值