Apache Parquet 技术干货分享

2019-06-11  本文已影响0人  大数据技术架构

Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。

Parquet 作为 HDFS 存储格式的事实标准,经常用在离线数仓、OLAP 等场景。本文整理于最近的一次公司内训,主要分四个部分:

1、Parquet 简介
2、架构解析
3、基本操作
4、TPC-DS 基准测试介绍

一、Parquet 简介

第一部分内容介绍了此次 Parquet 分享的技术背景,行存与列存的区别,以及 Parquet 的特点。

为什么要进行这次 Parquet 讲解?

主要因为 Parquet 在一个项目中重度使用,开发人员对其原理、操作不是很清楚,项目上是使用 Parquet 做离线数仓,计算层使用 Spark SQL 进行离线分析构建企业的标签系统,结果数据落地到 Elasticsearch。

Parquet可以说是一个列式存储系统。关于行存与列存的区别可以简单用下图描述,列存在 IO 方面比行存有很大优势,能够减少扫描数据量。

Parquet 的特点概况的说主要体现在:

另外,Parquet也是Spark SQL 的默认数据源,可通过参数spark.sql.sources.default 进行配置。

二、架构解析

1、技术架构

Parquet 是 Apache 的顶级项目,整体技术架构如下图

Parquet 主要包含以下 5 个主要模块:

2、数据模型

Parquet 是一种支持嵌套的数据模型,和 Protocol Buffers 的数据模型类似,它的 schema 就是一个嵌套 message。

每个 schema 包含多个字段,每一个字段又可以包含多个字段,每一个字段有三个属性:repetition、type 和 name,其中 repetiton 可以是以下三种:required(出现1次),repeated(出现0次或多次),optional(出现0次或1次)。每一个字段的数据类型可以分成两种:group(复杂类型)和 primitive(基本类型)。一个如下的 Parquet Schema 示意图

如果用代码表示就是:

message AddressBook  {    
  required string owner;    
  repeated string ownerPhoneNumbers;    
  repeated group contacts {          
      required string name;          
      optional string phoneNumber;    
  }
}

3、文件格式

下面是 Parquet 官网给出的文件格式图解:

从如上文件结构可以看出,Parquet 格式可以从以下几个部分理解:

Parquet 文件有三种类型的元数据,分别是file metadata、column(chunk) metadata、page header metadata,每部分元数据包含的信息从上面图解中大概可以得知。

此外,值得说明的是文件 header 部分中的 Magic Number,它的作用主要是为了做文件校验,验证文件是否是一个Parquet文件。

三、基本操作

1、通过 Hive 创建 Parquet 表

· 标准建表语句。举一个最简单的建表示例,如下:

create table t1 (id int) stored as parquet;

· 通过 TextFile 表创建 Parquet 表。这是离线数仓中的常规操作,假设已经准备好了一张 TextFile 表 catalog_sales,在 hive shell 命令行中演示如下操作:

-- 创建parquet表(不压缩) 
> drop table if exists catalog_sales_par; 
> create table catalog_sales_par stored as parquet as select * from catalog_sales;

-- 设置parquet为snappy压缩 
> set parquet.compression=SNAPPY; 
> create table catalog_sales_par_snappy stored as parquet as select * from catalog_sales;

-- 设置parquet块大小  
> set parquet.block.size=268435456; 
> create table catalog_sales_par_snappy2 stored as parquet as select * from catalog_sales;

2、查看 Parquet 文件 Schema

假如现在我们手上有一份 Parquet 文件,但是并没有人告知我们它对应的 schema 信息,这个时候怎么才能快速知道它的 schema 等信息呢?

其实 Parquet 原生提供了一个工具模块,这个工具可以很方便的查看本地或 HDFS 上的 Parquet 文件信息。不仅仅是 schema,还包括其他信息,按照下面使用方法中的帮助提示即可。

下载地址:
https://www.mvnjar.com/org.apache.parquet/parquet-tools/jar.html

使用方法:

#Run from Hadoop
hadoop jar ./parquet-tools-<VERSION>.jar --help
hadoop jar ./parquet-tools-<VERSION>.jar <command> my_parquet_file.par

#Run locally
java jar ./parquet-tools-<VERSION>.jar --help
java jar ./parquet-tools-<VERSION>.jar <command> my_parquet_file.par

实际测试:下载 parquet-tools-1.8.0.jar 工具包,上传到集群节点并读取 HDFS 上的一个 Parquet 文件:

四、TPC-DS 基准测试介绍

TPC-DS 是标准的大数据基准测试,采用星型、雪花型等多维数据模式,提供与真实数据一致的数仓数据以及符合实际的工作负载。提供的数据集包含 24 张表,其中 7 张事实表,17 张维度表,平均每张表含有18列。事实表的表名分别是 catalog_returns、catalog_sales、inventory、promotion、store_returns、store_sales、web_returns、web_sales。工作负载包含 99 个 SQL 查询,覆盖SQL99 和 2003 的核心部分以及 OLAP。

这里提前编译好了一版 TPC-DS 包,并使用它在本地生成 10 GB 的样本数据,命令如下:

$cd ~/training/tpcds/v2.3.0/tools
$nohup ./dsdgen -scale 10 -dir ~/data_10g &

然后使用它提供的 Q20 简单测试一下 TextFile 与 Parquet 格式数据的查询性能。更多的性能测试这里不多描述了。

关注本微信公众号,后台回复 parq 获取本文相关Parquet工具包与PPT。

往期文章精选
Apache Hudi 0.5.1版本重磅发布
贝壳找房基于 Flink 的实时平台建设
网易基于 HBase 的最佳实践
小米流式平台架构演进与实践

上一篇下一篇

猜你喜欢

热点阅读