PySpark 教程之 01 读取压缩的 gzip 文件(教程
2022-10-23 本文已影响0人
iCloudEnd
Spark 原生支持将压缩的 gzip 文件直接读取到数据帧中。我们必须相应地指定压缩选项才能使其工作。
但是,有一个问题。Spark 仅使用单个内核来读取整个 gzip 文件,因此没有分发或并行化。如果 gzip 文件较大,可能会出现内存不足错误。
让我们用一个例子来检查一下。我们将阅读 sales.csv.gz 文件
# Read zipped file directly from Spark
df_zipped = spark \
.read \
.format("csv") \
.option("compression", "gzip") \
.option("header", True) \
.load("dataset/tmp/sales.csv.gz")
df_zipped.printSchema()