互联网技术

数据科学之路(6)Hive使用细节再深入

2020-01-20  本文已影响0人  LiuShaodong

在上一篇的结尾,我们抛出了一个企业生产环境的建表语句,发现,这个建表语句中包含的知识点实在是太多了,如果面面俱到地去介绍,显然篇幅会过长。所以,本篇主要是对上一篇的建表语句中的知识点进行详细阐述。先把建表语句搬过来:

 CREATE EXTERNAL TABLE mdm_corpus_yx_labeled (   
`uid` string,
`serial` string,
`query` string COMMENT '问题',
`domain` string COMMENT '领域',
`intent` string COMMENT '意图',
`slots` string COMMENT '分槽,实体词',
`marked_domain` string COMMENT '标记的领域',
`marked_intent` string COMMENT '标记的意图',
`marked_slots` string COMMENT '标记的实体词',
`sid` string COMMENT '机器人sn号',
`b_answer` string COMMENT '回答')
PARTITIONED BY (`dates` STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
STORED AS PARQUET
LOCATION 'hdfs://xxxx/usr/corpus/unit_yx/mdm/mdm_corpus_yx_labeled';
  1. 外部表 外部表(EXTERNAL)指向已经在HDFS中存在的数据。它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成,也可以在一个语句中完成,在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据的访问将会直接在数据仓库目录中完成。删除内部表时,表中的数据和元数据将被同时删除。而外部表只有一个过程,加载表和创建表同时完成(CREATE EXTERNAL TABLE …… LOCATION),实际数据存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个外部表时,其实只是删除该链接。

  2. mdm_corpus_yx_labeled 表名是按照业务进行数据分层规范。那有的小伙伴就会问了,“什么是数据分层,为什么要进行数据分层?” 这是因为我们治理数据的时候,希望可以对数据有一个更加清晰的把控。详细来讲,为什么要进行数据分层有以下几个方面的原因:

对于数据分层的重要性,业界往往拿下面两张图做比喻。数据体系中的各个表的依赖就像是电线一样,我们都希望它是很规整,便于管理的。但是,大部分公司的数据往往是第一幅图,而非第二幅图。

那既然数据分层在数据仓库建设中有如此重要的地位,业界有没有一套统一的数据分层模型供大家参考呢?这里我们介绍一下猎豹移动的数据仓库建设:

在经过长时间的数据仓库迭代建设中,猎豹移动建成了适合自己业务的高可用数据仓库,其主要分为 ODM 层、MDM 层、IDM 层和 TDM 层四层数据仓库模型。

  1. PARTITIONED BY Partition 对应于关系数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如,mdm_corpus_yx_labeled 表中包含 dates 分区,则对应于 dates = 2019-10-28 的 HDFS 子目录为:/usr/corpus/unit_bhp/mdm/mdm_corpus_yx_labeled/2019-10-28
  1. ROW FORMAT DELIMITED 是用来设置创建的表在加载数据的时候,支持的列分隔符,在表 mdm_corpus_yx_labeled 中,列分隔符为 \t

  2. COLLECTION ITEMS TERMINATED BY 一个字段的各个 item 的分隔符,在表 mdm_corpus_yx_labeled 中,字段中各个 item 分隔符为 ,

  3. MAP KEYS TERMINATED BY Map集合中,keyvalue 之间的分隔符,在表 mdm_corpus_yx_labeled 中,集合中,keyvalue 的分隔符为 :

  4. STORED AS Hive 支持 TextFile、RCFile、SequenceFile、AVRO、ORC 和 Parquet 等存储格式。那我们在建表的时候,到底要采用哪种格式呢?下面,我们来介绍一下各个存储格式的特点和适用场景:

下图为各个存储格式数据压缩比较:

  1. LOCATION 是外部表实际数据的存储路径。

其他常用命令汇总

  1. 创建视图,包含 querydomain 字段:
hive> create view v_yx_labeled as select query,domain from mdm_corpus_yx_labeled;
  1. 查看数据库、表和视图:
hive> show databases;
hive> show databases like 'c.*';   # 以 c 开头的所有数据库
hive> use corpus;
hive> show tables;
  1. 向表中装载本地文件系统数据,并覆盖表中原有数据:
hive> load data local inpath '/user/liushaodong/unit_yx/data' overwrite into table mdm_corpus_yx_labeled_copy;
# 如果不覆盖表中原有数据,则去掉 overwrite 关键字
  1. 将分布式文件系统中的数据装载到表中,并覆盖表中原有数据:
hive> load data inpath 'hdfs://xxxx/usr/corpus/unit_yx/mdm/mdm_corpus_yx_labeled overwrite into table mdm_corpus_yx_labeled_copy;
# 去掉 local 关键字,即默认加载分布式文件系统中的数据
  1. 向表中插入数据,覆盖原有数据:
hive> insert overwrite table mdm_corpus_yx_labeled_copy select * from mdm_corpus_yx_labeled where dates = '2020-01-20';
  1. 向表中追加插入数据:
insert into table mdm_corpus_yx_labeled_copy select * from mdm_corpus_yx_labeled where dates = '2020-01-20';
# 追加数据即是将 overwrite 换成 into

OK,本篇到这里就要结束了,想了解更多有关于数据科学的小伙伴们,可以关注我哦!

上一篇 下一篇

猜你喜欢

热点阅读