关于SparkSQL中withColumn生成自增序列的一个坑

2019-01-25  本文已影响0人  Edison_Tu

多个分区情况下

首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID


image.png

然后我们看下生成的ID,可见同分区连续


image.png
一个分区情况下

我们使用coalesce方法将分区设置为1

image.png
接着,看看结果
image.png
所以,如果需要利用新生成的ID做一些操作的时候需要注意下分区情况,不然ID不会连续。
上一篇 下一篇

猜你喜欢

热点阅读