Spark学习之路

spark save parquet in impala dir

2020-03-28  本文已影响0人  shengjk1

1.问题:
项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中添加字段,报错.
例如:我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下,然后添加字段 aaa,字段顺序如下:


在这里插入图片描述

报错如下:
其中 day_id 为分区字段


在这里插入图片描述 2. 原因
impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的,添加了一个字段 aaa ,由于 parquet 中的数据并没有 aaa ,也没有 aaa 的占位符,它会默认把 day_id 当做 aaa.

3.解决办法:
set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考:
Hive vs Impala Schema Loading Case: Reading Parquet Files
PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

上一篇下一篇

猜你喜欢

热点阅读