[Hive]格式化输出 Hive 查询结果到 Excel

2019-11-18  本文已影响0人  帅可儿妞
  1. 首先把数据查出来, 并按照执行的分隔符分割
    set hive.cli.print.header=true;
    set hive.resultset.use.unique.column.names=false;
    insert overwrite local directory '<local-dirrectory>'
    row format delimited
    fields terminated by '<your-delimiter>'
    <select-statement>;
    
  2. 把结果文件传入脚本运行(待优化):
    hive_2_excel.py <path>/0000_0
    

首先说明一下, 上面第 1 步导出操作的文件名是系统自己定义的, 而且可能生成多个文件, 部分文件是空的, 这个就不是我们需要的了, 如果你不想这样, 想自己定义输出的文件名, 那么就可以利用Linux 的重定向解决这个问题

hive -f <hql-file> > <ouput-file>

问题又来了, 如果我使用了重定向的方式自然也就无法使用 HiveSQL 的查询指定分隔符的语法, 分隔符怎么自定义呢?

hive -f <hql-file> | sed 's/\t/<your-seperator>/g' > <ouput-file>

或者

hive -f <hql-file> | tr "\t" "<your-seperator>" > <ouput-file>

注意一下, 在第一行的 SQL 中添加了两行:

set hive.cli.print.header=true;
set hive.resultset.use.unique.column.names=false;

其目的是在SQL 执行结果的时候生成表头, 那么在导入 Excel 的时候, 就没有必要定制表头了, 数据中天然携带


上一篇下一篇

猜你喜欢

热点阅读