spark输出文件读取

2021-05-05  本文已影响0人  云彩修建站站长

背景就是spark处理了数据,获取了rdd文本文件,我再去读区rdd文件。
在此做一个记录,只要思想不滑坡,道路总比困难多。

1. 原始读取

原始读区rdd的文本文件,但是rdd的文本文件格式解析有些麻烦,虽然可以正确解析,但总感觉不太完善。
所以我首先去寻找,在存储的时候,有没有更好地存储方式,结果发现rdd存的时候,存textfile是最好的方式。
没办法了,那我考虑在读取的时候,能不能使用spark原生的读取方式,结果发现有些麻烦。

2. 格式化

突然想到,在spark里面,rdd和dataframe是可以互相转化的,dataframe是可以直接存成csv格式,这样就可以了。

    dataframe = spark.createDataFrame(step2, schema=['article_type', 'pub_time', 'created_at'])
    dataframe.write.csv(path=outpath, header=True, sep="\t", mode='overwrite')
上一篇 下一篇

猜你喜欢

热点阅读