spark RDD学习

2018-04-20  本文已影响22人  _Kantin

数据集合parallelize

image.png
image.png

外部数据testfile

image.png
image.png

map用于操作元素

image.png
image.png

filter用于过滤元素

image.png
image.png

flatMap用于映射元素

image.png
image.png

mapPartions用于分区数据的整体处理

image.png
image.png

sample用于取样操作

image.png

union用于两个数据集合并

image.png

intersection用于返回两个集合的交际

image.png

distinct用于两个数据集的去重

image.png

groupByKey对数据进行分组

reduceByKey数组分组聚合操作

image.png

combineByKey是对RDD中的数据集按照key进行聚合

image.png
image.png

sortByKey对key进行排序

image.png

join对两个集合进行连接操作,生成(k,(v,w))

cogroup聚合两个集合按照key生成[k,Seq[V],Seq[W]]

image.png
image.png

cartesian对两个集合进行笛卡尔积

subtract对两个数据集进行减法

image.png image.png

zip进两个序列进行压缩成对的操作

image.png

coalesce(numPartitions)对RDD进行重分区,不需shuffle,而repartition(numPartitions)则需要进行需shuffle

reduce对数据进行聚合操作,区别于bykey的只对value进行操作

image.png

takeSample返回随机num个元素的数组

image.png

takeOrdered(n,[ordering])返回随机的n个元素的数组

countBykey

image.png
上一篇 下一篇

猜你喜欢

热点阅读