Hive常用命令

2019-10-28  本文已影响0人  雪飘千里

1、给用户赋予权限

# 角色创建与删除相关命令
create role rolename;
drop role name;
# 将某个角色赋予某个用户
grant role name to user username;
# 使某个用户拥有databasename数据库的select权限
grant select on database databasename to user username;

2、数据库新建/删除操作

create database hello_world;
create database if not exists database_name
show databases;
use  hello_world;
//删除空的数据库
drop database if exists database_name; 
//先删除数据库中的表再删除数据库
drop database if exists database_name cascade; 

3、hive表操作

show tables;
desc hello_world_inner;
show partitions hello_world_parti;
show create table table_name;
drop table t1;  
drop table if exists t1;
alter table table_name rename to new_table_name;

4、建表语句

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]
create table hello_world_inner
(
    id bigint, 
    account string, 
    name string,
    age int
)
row format delimited fields terminated by ',';
create EXTERNAL  table hello_world_inner
(
    id bigint, 
    account string, 
    name string,
    age int
)
row format delimited fields terminated by ',';
create table hello_world_parti
(
    id bigint,
    name string
)
partitioned by (dt string, country string);

参数说明:
EXTERNAL:创建外部表,在建表的同时可以指定源数据的路径(LOCATION),创建内部表时,会将数据移动到数据仓库指向的路径,若创建外部表不会有任何改变。在删除表时,内部表的元数据和源数据都会被删除,外部表不会删除源数据。

COMMENT:为表和列增加注释

PARTITIONED BY:创建分区表,
——PARTITIONED BY(dt STRING, country STRING)
CLUSTERED BY:创建分桶表
SORTED BY:创建排序后分桶表(不常用)
——CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS

ROW FORMAT DELIMITED:是用来设置创建的表在加载数据的时候,支持的列分隔符。Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A
—— ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';

STORED AS:指定存储文件类型 sequencefile (二进制序列文件)、textfile(文本)、rcfile(列式存储格式文件)、ORC
如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。
如果数据需要压缩,使用 STORED AS SEQUENCEFILE。

LOCATION:指定表在 hdfs 上的存储位置

5、表结构修改

alter table table_name add columns (newcol1 int comment ‘新增’);
alter table table_name change col_name new_col_name new_type;
alter table table_name replace columns (col1 int,col2 string,col3 string);
alter table table_name drop if exists partitions (d=‘2016-07-01');

注意:若是外部表,则还需要删除文件(hadoop fs -rm -r -f hdfspath)

//修改字段分隔符
alter table aaa set serdeproperties('field.delim'='\t');
//修改序列化分隔符
alter table aaa set serdeproperties('serialization.format'='1');
//aaa为表名

6、字段类型

7、加载数据到hive表

//使用data_base_zhangkai数据库
use data_base_zhangkai;
LOAD DATA INPATH '/user/zhangkai/aaa' OVERWRITE INTO TABLE ods_aaa; 

注意:INPATH后面的文件路径不能和hive表路径在hdfs上一致,最好是两个不同的文件路径,在加载过程中,源路径下的文件会被移动到hive表所在路径下,如果一致,会找不到文件错误;

use data_base_zhangkai;
LOAD LOCLDATA INPATH '/user/zhangkai/aaa' OVERWRITE INTO TABLE ods_aaa; 

8、存储格式

Hive支持内置和自定义开发的文件格式。以下是Hive内置的一些格式:

默认是文本格式.
textfile 存储空间消耗比较大,并且压缩的text 无法分割和合并查询的效率最低,可以直接存储,加载数据的速度最高.
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高,需要通过text文件转化来加载.
rcfile 存储空间最小,查询的效率最高 ,需要通过text文件转化来加载,加载的速度最低.

相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。

9、配置优化

# 开启任务并行执行
set hive.exec.parallel=true
# 设置运行内存
set mapreduce.map.memory.mb=1024;
set mapreduce.reduce.memory.mb=1024;
# 指定队列
set mapreduce.job.queuename=jppkg_high;
# 动态分区,为了防止一个reduce处理写入一个分区导致速度严重降低,下面需设置为false
# 默认为true
set hive.optimize.sort.dynamic.partition=false;
# 设置变量
set hivevar:factor_timedecay=-0.3;
set hivevar:pre_month=${zdt.addDay(-30).format("yyyy-MM-dd")};
set hivevar:pre_date=${zdt.addDay(-1).format("yyyy-MM-dd")};
set hivevar:cur_date=${zdt.format("yyyy-MM-dd")};
# 添加第三方jar包, 添加临时函数
add jar ***.jar;
# 压缩输出,ORC默认自带压缩,不需要额外指定,如果使用非ORCFile,则设置如下
hive.exec.compress.output=true
# 如果一个大文件可以拆分,为防止一个Map读取过大的数据,拖慢整体流程,需设置
hive.hadoop.suports.splittable.combineinputformat
# 避免因数据倾斜造成的计算效率,默认false
hive.groupby.skewindata
# 避免因join引起的数据倾斜
hive.optimize.skewjoin
# map中会做部分聚集操作,效率高,但需要更多内存
hive.map.aggr   -- 默认打开
hive.groupby.mapaggr.checkinterval  -- 在Map端进行聚合操作的条目数目
# 当多个group by语句有相同的分组列,则会优化为一个MR任务。默认关闭。
hive.multigroupby.singlemr
# 自动使用索引,默认不开启,需配合row group index,可以提高计算速度
hive.optimize.index.filter

10、常用函数

使用

上一篇 下一篇

猜你喜欢

热点阅读