Kudu：Apache Kudu 简介和架构

2020-12-12 本文已影响0人 xiaogp

摘要：Kudu，Hdfs，Hbase

Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的批量数据分析能力，他是一个融合Hdfs和Hbase功能的新组件，具备介于两者之间的新存储组件。

Kudu和Hbase Hdfs对比.png

Kudu使用单个Master节点管理集群和元数据，使用任意数量的Table Server节点来存储实际数据，可以部署多个Master节点来提高容错。
Kudu架构中分为Master Server，Tablet Server，Table，Tablet

Kudu架构.png

Master Server: Kudu集群中的老大，可以有多个Master Server提高集群的容错能力，但是只有一个Master Server对外提供服务，负责管理集群和管理元数据。
Tablet Server: Kudu集群中的小弟，可以有任意多个，负责存储数据和数据读写。在Tablet Server上存储Tablet，对于一个Tablet，只有其中一个Table Server作为leader，提供读写服务，其他Table Server都是follower，只提供读服务。
Table: Kudu中的表概念，有Schema和Primary Key概念，Kudu中的表会被水平方向分为多个Tablet片段存储在Tablet Server上。
Tablet: 一个Tablet是一张表的一个连续片段，tablet是表的水平分区，tablet之间的primary key范围不会重叠，一张表的所有tablet片段构成了这张表的所有primary key范围。tablet会冗余存储在多个Tablet Server上设置副本，任何时刻只有一个Tablet Server是leader，其他都是follower。

Kudu的设计是面向结构化存储的，数据模型与传统的关系型数据库类似，一个 Kudu集群由多个表组成，每个表由多个字段组成，一个表必须指定一个由若干个（>=1）字段组成的主键，如下图：

数据模型.png

Kudu需要在建表时定义Schema信息，包括定义列（列类型）和主键primary key。
Kudu的数据唯一性依赖与primary key的列组合
Kudu不支持传统关系型数据库的二级索引
Kudu表中的每个字段是强类型的，而不是HBase那样所有字段都认为是 bytes。这样做的好处是可以对不同类型数据进行不同的编码。Kudu的数据类型包括BOOL, INT8, INT16, INT32, BIGINT, INT64, FLOAT, DOUBLE, STRING, BINARY

Kudu的底层存储基于table/tablet/replica视图级别的底层存储系统

kudu底层存储.png

每个table被划分为tablet，每个tablet包含一个MetaData和若干个RowSet（行集合）
MetaData记录元数据，即记录该tablet属于哪个table，RowSet包含一个MemRowSet和若干个DiskRowSet
MemRowSet：当有新数据插入时写入MemRowSet，以及修改已经在MemRowSet中的数据，当MemRowSet写满或者超过一定时间后刷入磁盘形成若干个DiskRowSet，默认是1G或者120s
DiskRowSet：MemRowSet每刷新一次就会生成一个DiskRowSet，DiskRowSet刷下来之后就不在变化了，DiskRowSet中又包含BloomFIle，AdhoxIndex，BaseData，UndoFile，RedoFile，DeltaMem
BloomFIle：根据一个DiskRowSet中的key生成布隆过滤器，用于快速模糊定位某个key是否在DiskRowSet中
AdhoxIndex：如果key在DiskRowSet中定位key的具体偏移位置
BaseData：MemRowSet刷如磁盘的数据，按列存储，按主键排序
RedoFile：保存更新后的数据，防止事务成功后数据未在磁盘更新
UbdoFile：保存更新前的数据，防止事务失败后恢复原始数据
DeltaMem：用于DiskRowSet数据的更新，存储DiskRowSet中变更的数据，随着DiskRowSet的变化，DeltaMem记录变更记录，DeltaMem增长到一定程度刷到磁盘形成deltaData

Kudu对表进行横向分区，Kudu表会被横向切分存储在多个tablets中。不过相比与其他存储引擎，Kudu提供了更加丰富灵活的数据分区策略。一般数据分区策略主要有两种，一种是Range Partitioning，另一种分区策略是Hash Partitioning。

Range Partitioning: 按照字段值范围进行分区，HBase 就采用了这种方式，优势是在数据进行批量读的时候，可以把大部分的读变成同一个 tablet 中的顺序读，能够提升数据读取的吞吐量。并且按照范围进行分区，我们可以很方便的进行分区扩展。其劣势是同一个范围内的数据写入都会落在单个 tablet 上，写的压力大，速度慢。
Hash Partitioning: 按照字段的Hash值进行分区，Cassandra采用了这个方式，由于是Hash分区，数据的写入会被均匀的分散到各个 tablet 中，写入速度快。但是对于顺序读的场景这一策略就不太适用了，因为数据分散，一次顺序读需要将各个 tablet 中的数据分别读取并组合，吞吐量低。并且 Hash 分区无法应对分区扩展的情况。