PySpark 教程之 01 读取压缩的 gzip 文件（教程

2022-10-23 本文已影响0人 iCloudEnd

Spark 原生支持将压缩的 gzip 文件直接读取到数据帧中。我们必须相应地指定压缩选项才能使其工作。

但是，有一个问题。Spark 仅使用单个内核来读取整个 gzip 文件，因此没有分发或并行化。如果 gzip 文件较大，可能会出现内存不足错误。

让我们用一个例子来检查一下。我们将阅读 sales.csv.gz 文件

# Read zipped file directly from Spark
df_zipped = spark \
    .read \
    .format("csv") \
    .option("compression", "gzip") \
    .option("header", True) \
    .load("dataset/tmp/sales.csv.gz")
df_zipped.printSchema()

PySpark 教程之 01 读取压缩的 gzip 文件（教程

猜你喜欢

热点阅读