关于SparkSQL中withColumn生成自增序列的一个坑
2019-01-25 本文已影响0人
Edison_Tu
多个分区情况下
首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID

然后我们看下生成的ID,可见同分区连续

一个分区情况下
我们使用coalesce方法将分区设置为1

接着,看看结果

所以,如果需要利用新生成的ID做一些操作的时候需要注意下分区情况,不然ID不会连续。
首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID
然后我们看下生成的ID,可见同分区连续
我们使用coalesce方法将分区设置为1