hadoop入门系列--hive基础
传送门
hadoop入门系列--hive基础
hadoop入门系列--hive的三种集合数据类型array、map、struct以及自定义分隔符示例
hadoop入门系列--hive中array(或map集合类型)的行转多列LATERAL VIEW explode用法
传送门
一、概念理解
- 不是数据库,更像是adoop的一个工具或者接口。是一个构建与Hadoop顶层的数据仓库工具(数据仓库是把所有数据都存储,都联系起来。可以存储所有历史数据)
- 本身不存储和处理数据。依赖分布式文件系统HDFS存储数据,依赖分布式并行计算模型MapReduce处理数据
- 定义了简单的类似SQL的查询语言---HiveQL
- 用户可以通过编写HiveQL语句运行MapReduce任务
二、在hive数据库中创建表
下面是创建表名为employee,两个字段分别为id、name(类型分别为int、String)
hive> create table if not exists employee (id int , name String)
ROW FORMAT DELIMITED //行格式分隔
FIELDS TERMINATED BY '\t' //以'\t'结尾的字段
LINES TERMINATED BY '\n' //以'\n'结尾的行
STORED AS TEXTFILE; //存储为文本文件;
如果创建表成功,能看到以下回应:
OK
Time taken: 5.905 seconds
hive>
查看表结构
desc student;
快速查看表的行数(利用EXPLAIN命令,通过查看查询的执行计划中的TableScan操作中的Statistics得知数据量 )
explain select * from student;
删除表
drop table student;
三、把数据导入表中
1)从本地文件系统中导入数据到Hive表
hive> load data local inpath 'jobs.txt' into table employee;
需要注意的是:
和我们熟悉的关系型数据库不一样,Hive现在还不支持在insert语句里面直接给出一组记录的文字形式,也就是说,Hive并不支持INSERT INTO …. VALUES形式的语句。
2)HDFS上导入数据到Hive表
方法原理:
从本地文件系统中将数据导入到Hive表的过程中,其实是先将数据临时复制到HDFS的一个目录下(典型的情况是复制到上传用户的HDFS home目录下,比如/home/wyp/),然后再将数据从那个临时目录下移动(注意,这里说的是移动,不是复制!)到对应的Hive表的数据目录里面。既然如此,那么Hive肯定支持将数据直接从HDFS上的一个目录移动到相应Hive表的数据目录下,假设有下面这个文件/home/wyp/jobs.txt,具体的操作如下:
hive> load data inpath '/home/wyp/jobs.txt' into table employee;
hive> select * from employee;
从上面的执行结果我们可以看到,数据的确导入到wyp表中了!请注意load data inpath ‘/home/wyp/employee.txt’ into table employee;里面是没有local这个单词的,这个是和方法1的区别。
3)从别的表中查询出相应的数据并导入到Hive表中
#wyp表
hive> create table test (id int , name String,age init,tel String)
ROW FORMAT DELIMITED //行格式分隔
FIELDS TERMINATED BY '\t' //以'\t'结尾的字段
LINES TERMINATED BY '\n' //以'\n'结尾的行
STORED AS TEXTFILE; //存储为文本文件;
#假设Hive中有test表,其建表语句如下所示:
hive> create table test (id int , name String,tel String)
partitioned by
(age int)
ROW FORMAT DELIMITED //行格式分隔
FIELDS TERMINATED BY '\t' //以'\t'结尾的字段
LINES TERMINATED BY '\n' //以'\n'结尾的行
STORED AS TEXTFILE; //存储为文本文件;
大体和wyp表的建表语句类似,只不过test表里面用age作为了分区字段。对于分区,这里在做解释一下:
分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中。比如wyp表有dt和city两个分区,则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse/dt=20131218/city=BJ,所有属于这个分区的数据都存放在这个目录中。
//下面语句就是将wyp表中的查询结果并插入到test表中:
hive> insert into table test
> partition (age='25')
> select id, name
> from wyp;
hive> select * from test;
//打印结果
4 wyp4 25
1 wyp 25
2 test 25
3 zs 25
- 这里做一下说明:
我们知道我们传统数据块的形式insert into table values(字段1,字段2),这种形式hive是不支持的。- 通过上面的输出,我们可以看到从wyp表中查询出来的东西已经成功插入到test表中去了!如果目标表(test)中不存在分区字段,可以去掉partition (age=’25′)语句。
通过上面的输出,我们可以看到从wyp表中查询出来的东西已经成功插入到test表中去了!如果目标表(test)中不存在分区字段,可以去掉partition (age=’25′)语句。当然,我们也可以在select语句里面通过使用分区值来动态指明分区:
hive> set hive.exec.dynamic.partition.mode=nonstrict;
hive> insert into table test
> partition (age)
> select id, name,
> tel, age
> from wyp;
#####################################################################
这里输出了一堆Mapreduce任务信息,这里省略
#####################################################################
Total MapReduce CPU Time Spent: 1 seconds 510 msec
OK
Time taken: 17.712 seconds
hive> select * from test;
OK
5 wyp1 131212121212 23
6 wyp2 134535353535 24
7 wyp3 132453535353 25
1 wyp 13188888888888 25
8 wyp4 154243434355 26
2 test 13888888888888 30
3 zs 899314121 34
Time taken: 0.399 seconds, Fetched: 7 row(s)
- 这种方法叫做动态分区插入,但是Hive中默认是关闭的,所以在使用前需要先把hive.exec.dynamic.partition.mode设置为nonstrict。当然,Hive也支持insert overwrite方式来插入数据,从字面我们就可以看出,overwrite是覆盖的意思,是的,执行完这条语句的时候,相应数据目录下的数据将会被覆盖!而insert into则不会,注意两者之间的区别。例子如下:
hive> insert overwrite table test
> PARTITION (age)
> select id, name, tel, age
> from wyp;
- 更可喜的是,Hive还支持多表插入,什么意思呢?在Hive中,我们可以把insert语句倒过来,把from放在最前面,它的执行效果和放在后面是一样的,如下:
- 可以在同一个查询中使用多个insert子句,这样的好处是我们只需要扫描一遍源表就可以生成多个不相交的输出。这个很酷吧!
hive> show create table test3;
OK
CREATE TABLE test3(
id int,
name string)
Time taken: 0.277 seconds, Fetched: 18 row(s)
hive> from wyp
> insert into table test
> partition(age)
> select id, name, tel, age
> insert into table test3
> select id, name
> where age>25;
hive> select * from test3;
OK
8 wyp4
2 test
3 zs
Time taken: 4.308 seconds, Fetched: 3 row(s)
4)在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中
- 在实际情况中,表的输出结果可能太多,不适于显示在控制台上,这时候,将Hive的查询输出结果直接存在一个新的表中是非常方便的,我们称这种情况为CTAS(create table .. as select)如下:
hive> create table test4
> as
> select id, name, tel
> from wyp;
hive> select * from test4;
OK
5 wyp1 131212121212
6 wyp2 134535353535
7 wyp3 132453535353
8 wyp4 154243434355
1 wyp 13188888888888
2 test 13888888888888
3 zs 899314121
Time taken: 0.089 seconds, Fetched: 7 row(s
数据就插入到test4表中去了,CTAS操作是原子的,因此如果select查询由于某种原因而失败,新表是不会创建的!
4)练习:请基于Job职位表数据,在HIVE中创建一个job表,然后将job数据加载到该表,并可以做查询使用。
image.png image.png注:这里把数据导入hive的employee表,命令可参考上面的本地导入和hdfs导入两种方法