Spark

2020-03-22  本文已影响0人  inspiredhss
image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png a image.png

*task-reducetask

image.png image.png image.png

*少了根据Key在内存中排序的操作

image.png image.png

*增大分区 产生shuffer; repartition
*减小分区 coalesce
*Spark默认分区200个参数 改变分区方式:根据算子 改变参数SparkConf

image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png

*基于原有分区 不影其他分区

image.png

*DF 内存不够溢写到磁盘;RDD:内存不够 内存&初始端拉取

image.png image.png image.png

*小表在Java本地Join 然后广播到worker

image.png image.png image.png
上一篇 下一篇

猜你喜欢

热点阅读