spark性能优化
2018-06-25 本文已影响0人
何小小宝
#并行度
RDD的逻辑表示是一个对象集合。在物理执行期间,会被分为一系列的分区,每个分区都是数据的子集。当spark调度并运行期间,会为每个分区中的数据创建一个任务。该任务默认情况下会需要集群中的一个计算核心来执行。
RDD的逻辑表示是一个对象集合。在物理执行期间,会被分为一系列的分区,每个分区都是数据的子集。当spark调度并运行期间,会为每个分区中的数据创建一个任务。该任务默认情况下会需要集群中的一个计算核心来执行。