pyspark上保存成hdfs文件的几种方式：

2020-08-11 本文已影响0人轻菊不爱柠檬

1.当我的数据是rdd格式的

rdd.saveAsTextFile('path_name')

或者：

rdd.repartition(1).saveAsTextFile('path_name') #表示将数据拉到一个分区，emmmm话说我一直不知道为什么要拉到一个分区，这样不会导致某个内存爆掉嘛

2.当我的数据是pyspark的dataframe（直接hiveContext(sc).sql(slect语句)）出来的就是这这种类型

df.coalesce(1).write.csv('path_name') #df.coalesce(1)表示合并成一个csv

q其他的日后补充~~