PySpark 教程之 02 读取 PNG 或 PDF 等二进制

2022-10-23  本文已影响0人  iCloudEnd

Spark 可以读取 .png 或 .pdf 文件吗?答案是肯定的。Spark 可以将几乎任何类型的文件作为二进制文件读取到数据帧中。

Spark 具有 binaryFile 内置格式来加载任何二进制文件并将内容存储为二进制文件。BLOB 或二进制内容可以稍后根据需要写回适当的文件格式。

让我们快速读取一些二进制文件进行演示。我们要阅读的文件

%%sh
ls -lhtr dataset/files
上一篇下一篇

猜你喜欢

热点阅读