阿里云云原生数据湖分析DLA重磅发布-数据湖管理,助力企业一站式

2020-09-29  本文已影响0人  阿里云数据库

一、数据湖方案的价值

数据湖方案相比较数据库、数据仓库、Hadoop等,数据湖要处理的数据类型更加开放、更加复杂。数据湖主要是对海量的结构化、半结构化、非结构化、二进制数据进行存储,同时还需要对这些数据进行管理和价值挖掘。接下来可以看下云上沉淀的典型数据湖方案:

方案一:一站式端到端数据湖存储、管理、分析&计算方案

方案二:OSS 大规模数据(自由编程)清洗&机器学习方案

方案三:不同类型数据源联邦查询分析方案



二、构建数据湖方案面临的挑战

上面的两个数据湖方案是各大企业在阿里云上面通过实践沉淀下来的。当前企业在落地数据湖方案具体会遇到的挑战主要包括:

结合用户的这些挑战和痛点,阿里云数据湖分析服务DLA的数据湖管理功能可以有效的提高构建数据湖的效率,接下来一起把这些功能玩转起来吧

三、DLA高效的数据湖管理功能

阿里云数据湖分析服务DLA的数据湖管理功能定位为帮助用户构建统一、安全、高效、开放的数据湖解决方案。从下面的数据湖方案整体架构图可以看出:

数据湖管理核心功能包括:元数据管理、元数据爬取、数据入湖、实时数据湖。下面一起来看下这些功能是如何高效的帮助构建数据湖的。

3.1 元数据管理

为了对数据湖的数据进行安全的管理和挖掘价值,需要一套同时具备基本管理能力、多租户权限管理能力、扩展能力、开放能力的统一元数据系统。阿里云数据湖分析服务DLA的元数据系统具备这些能力。

3.1.1 DLA元数据管理介绍

下面是数据湖分析服务DLA的元数据管理系统的架构图,整个元数据管理包含四个层次:存储层、核心服务层、接入层、生态层。

3.1.2 DLA元数据管理上手

  1. 可视化全局管理视图:支持“创建Schema”、查看库表信息、查询数据等。
  2. 创建元数据:支持元数据爬取、数据入湖、SQL手动创建、SQL自动创建等3) 权限管理:目前支持通过JDBC进行权限的GRANT和REVOKE,通过阿里云OpenAPI也在研发中。

3.2 元数据爬取

用户基于OSS进行数据湖存储时,数据具有规模大、格式丰富、动态变化、非结构化字段多的特点,这种情况下手动创建的可行性及成本会比较高。

3.2.1 DLA元数据爬取介绍

元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据,方便分析和计算。

3.2.2 DLA元数据爬取10分钟上手

使用DLA的元数据爬取可以通过DLA的控制台:

image image

3.3 数据入湖

企业期望对存储在消息中间件、Database的数据都有归档存储到数据湖OSS中进行统一计算分析。简单易用的数据入湖功能成为普遍的需求。

3.3.1 DLA数据入湖介绍

阿里云数据湖分析DLA的数据入湖包含DataBase一键建湖、实时数据湖两个重要功能。

  1. DataBase一键建湖:主要支持全量、增量、多库合并三种模式,支持OLTP的MySQL、SQLServer、POLARDB等,同时支持NoSQL的mongoDB等;
image
  1. 实时数据入湖:对于云kafka、Loghub等消息中间、数据库的CDC数据可以通过“实时数据入湖”方案构建数据湖。

全链路数据延迟可达分钟级别,打造T + 0 数据湖;一份数据存储在OSS,通过DLA Meta增量管理,降低存储成本低。

3.3.2 Database一键建湖

使用一键建湖可以通过DLA的控制台,同时可以通过数据管理DMS进行。

上一篇 下一篇

猜你喜欢

热点阅读