PySpark 教程之 02 读取 PNG 或 PDF 等二进制
2022-10-23 本文已影响0人
iCloudEnd
Spark 可以读取 .png 或 .pdf 文件吗?答案是肯定的。Spark 可以将几乎任何类型的文件作为二进制文件读取到数据帧中。
Spark 具有 binaryFile 内置格式来加载任何二进制文件并将内容存储为二进制文件。BLOB 或二进制内容可以稍后根据需要写回适当的文件格式。
让我们快速读取一些二进制文件进行演示。我们要阅读的文件
%%sh
ls -lhtr dataset/files