pyspark上保存成hdfs文件的几种方式:

2020-08-11  本文已影响0人  轻菊不爱柠檬

1.当我的数据是rdd格式的

rdd.saveAsTextFile('path_name')

或者:

rdd.repartition(1).saveAsTextFile('path_name')  #表示将数据拉到一个分区,emmmm话说我一直不知道为什么要拉到一个分区,这样不会导致某个内存爆掉嘛

2.当我的数据是pyspark的dataframe(直接hiveContext(sc).sql(slect语句))出来的就是这这种类型

df.coalesce(1).write.csv('path_name')     #df.coalesce(1)表示合并成一个csv

q其他的日后补充~~        

上一篇 下一篇

猜你喜欢

热点阅读