154、Spark内核原理进阶之distinct算子内部实现原理

2019-01-24  本文已影响0人  ZFH__ZJ
distinct.png

distinct算子的原理

  1. 首先,自己先给每个值打上一个v2,变成一个tuple
  2. reduceByKey(...仅仅返回一个value)
  3. 将去重后的数据,从tuple还原为单值
上一篇 下一篇

猜你喜欢

热点阅读