Step by Step 实现基于 Cloudera 5.8.2
本篇主要介绍 Hive 集成 Sentry、Impala 集成 Sentry、HUE 集成 Sentry,HDFS 集成 Sentry(这块暂时没有调通)。
众所周知,MySQL 有细粒度的权限控制,诸如 HBase 这样的 NoSQL DB 也有细化到表的权限控制。而 Hadoop 生态圈中也有一款对应的产品 Sentry,它可以细化到 Hive / Impala 数据库的列粒度,进行权限控制,极大地提升了集群的多租户共享能力,保障了数仓本身的数据安全性。配合 Kerberos 的 user / service 认证,HDFS 的 ACLs 文件系统权限控制,以及传输层加密,HDFS 的静态数据加密,甚至是基于 LUKS 的整盘加密,可谓海陆空式的进行了安全防护。
下面我们来具体谈谈,怎么集成 Sentry 到 Hadoop 中。
Hive 集成 Sentry
准备工作
- Hive 的数仓
/user/hive/warehouse
目录必须从属于 hive:hive; - Hive 的 Cloudera 配置:
hive.server2.enable.impersonation = False
; - YARN 的 Cloudera 配置:确保
Allowed System Users
已经包含了hive用户;
配置工作
在 Clouder Manager 对 Hive 进行配置,这里的 Server Name 是 Hive 数仓服务名,表示根服务:
Sentry Service = Sentry
Server Name for Sentry Authorization = server1
重启 Hive 服务。
给 hive 用户授权 hive 超级管理员权限,假设 hiveserver2 是 192.168.1.3:
HIVESERVER2_HOSTNAME=192.168.1.3
beeline -u "jdbc:hive2://${HIVESERVER2_HOSTNAME}:10000/default;principal=hive/${HIVESERVER2_HOSTNAME}@DOMAIN.COM;"
CREATE ROLE admin_role;
GRANT ALL ON SERVER server1 TO ROLE admin_role;
GRANT ROLE admin_role TO GROUP hive;
GRANT ROLE admin_role TO GROUP admin;
Impala 集成 Sentry
在 Clouder Manager 对 Impala 进行配置:
Sentry Service = Sentry
重启 Impala 服务。
HUE 集成 Sentry
在 Clouder Manager 对 HUE 进行配置:
Sentry Service = Sentry
重启 HUE 服务。
添加 Hive, Impala, HUE, HUE 默认超级管理员组到 Sentry admin 组
在 Clouder Manager 对 Sentry 进行配置,修改 Admin Group
,添加hive
,impala
, hue
,admin
(hue的默认超级管理员),重启 Sentry 服务。
至此,所有配置完成,接下来进行功能测试。
功能测试
本文对 Use Case 1进行了详细阐述,针对 Use Case 2 和 Use Case 3,请读者通过 HUE 的 Hive Tables
功能自己实现。
Use Case 1: hive 用户有最高权限,可以查看所有数据库、表及 CRUD 等,hue 用户只有 filtered 数据库权限
准备测试数据:
cat /tmp/events.csv
10.1.2.3,US,android,createNote
10.200.88.99,FR,windows,updateNote
10.1.2.3,US,android,updateNote
10.200.88.77,FR,ios,createNote
10.1.4.5,US,windows,updateTag
然后,在 HUE 的 hive editor 中运行下面 sql 语句,创建 sensitive
filtered
数据库:
create database sensitive;
create table sensitive.events (
ip STRING, country STRING, client STRING, action STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
load data local inpath '/tmp/events.csv' overwrite into table sensitive.events;
create database filtered;
create view filtered.events as select country, client, action from sensitive.events;
create view filtered.events_usonly as select * from filtered.events where country = 'US';
使用 hive/hive_admin
这个 principal 进行 Kerberos 认证,为 hive 用户赋予最高权限(不知道如何创建 principal?请参考Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合):
kinit hive/hive_admin
HIVESERVER2_HOSTNAME=192.168.1.3
beeline -u "jdbc:hive2://${HIVESERVER2_HOSTNAME}:10000/default;principal=hive/${HIVESERVER2_HOSTNAME}@DOMAIN.COM;"
CREATE ROLE admin_role;
GRANT ALL ON SERVER server1 TO ROLE admin_role;
GRANT ROLE admin_role TO GROUP hive;
在 HUE 中使用 hive 用户进行登录,确认可以读取 sensitive
filtered
数据库中的表数据,hive 用户应该可以查看所有数据库、访问所有表。创建用户 hue,它只可以访问 filtered 数据库:
kinit hive/hive_admin
HIVESERVER2_HOSTNAME=192.168.1.3
beeline -u "jdbc:hive2://${HIVESERVER2_HOSTNAME}:10000/default;principal=hive/${HIVESERVER2_HOSTNAME}@DOMAIN.COM"
CREATE ROLE test_role;
GRANT ALL ON DATABASE filtered TO ROLE test_role;
GRANT ROLE test_role TO GROUP hue;
在 HUE 界面上使用 hue 用户登录,确认 hue 用户只对 filtered
数据库有最高权限,但是对 sensitive
没有任何权限。
Use Case 2: hue用户对数据库 test_only 有所有权限,对 test_select_only 只有 select 权限
Use Case 3: hive用户具备数据库hive_only数据库所有权限,而hue用户只能SELECT hive_only.events.country 字段