数据仓库快速入门教程15数据湖vs数据仓库
2019-07-02 本文已影响28人
python测试开发
什么是数据仓库?
数据仓库是技术和组件的混合体,允许战略性地使用数据。 它是一种从各种来源收集和管理数据以提供有意义的业务见解的技术。
它是由企业进行的大量信息的电子存储,其设计用于查询和分析而不是事务处理。 这是一个将数据转换为信息的过程。
什么是Data Lake?
数据湖是一个存储库,可以存储大量结构化,半结构化和非结构化数据。 它是以原生格式存储每种类型数据的地方,对帐户大小或文件没有固定限制。 它提供高数据量以提高分析性能和本机集成。
Data Lake就像一个大型容器,与真正的湖泊和河流非常相似。 就像在湖中你有多个支流进来一样,数据湖有结构化数据,非结构化数据,机器到机器,实时流动的日志。
数据仓库概念:
数据仓库将数据存储在文件或文件夹中,这有助于组织和使用数据以做出战略决策。 该存储系统还提供原子数据和摘要数据的多维视图。 需要执行的重要功能是:
- 数据提取
- 数据清理
- 数据转换
- 数据加载和刷新
数数据湖概念:
Data Lake是一个大型存储库,它以原始格式存储大量原始数据,直到需要它为止。 Data Lake中的每个数据元素都具有唯一标识符,并使用一组扩展元数据标记进行标记。 它提供多种分析功能。
参考资料
- python测试开发项目实战-目录
- python工具书籍下载-持续更新
- python 3.7极速入门教程 - 目录
- 讨论qq群630011153 144081101
- 原文地址
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- https://www.tutorialspoint.com/sqoop/sqoop_installation.htm
- https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html
- https://www.softwaretestinghelp.com/top-4-etl-testing-tools/

参数 | 数据湖 | 数据仓库 |
---|---|---|
存储 | 在数据湖中,无论源和结构如何,都保留所有数据。 数据以原始形式保存。 它只有在准备好使用时才会被转换。 | 数据仓库将包含从事务系统中提取的数据或由定量度量及其属性组成的数据。 数据被清理和转换 |
历史 | 数据湖中使用的大数据技术相对较新。 | 与大数据不同,数据仓库概念已经使用了数十年。 |
数据捕获 | 从源系统捕获原始形式的各种数据和结构,半结构化和非结构化。 | 捕获结构化信息并按照为数据仓库目的定义的模式组织它们 |
数据时间表 | 数据湖可以保留所有数据。 这不仅包括正在使用的数据,还包括将来可能使用的数据。 此外,数据始终保持,可以追溯并进行分析。 | 在数据仓库开发过程中,花费大量时间来分析各种数据源。 |
用户 | Data Lake非常适合沉迷于深度分析的用户。 这些用户包括需要具有预测建模和统计分析等功能的高级分析工具的数据科学家。 | 数据仓库非常适合操作用户,因为它结构合理,易于使用和理解。 |
存储成本 | 存储在大数据技术中的数据相对便宜,然后将数据存储在数据仓库中。 | 在数据仓库中存储数据既费时又费时。 |
任务 | 数据湖可以包含所有数据和数据类型; 它使用户能够在转换,清理和结构化过程之前访问数据。 | 数据仓库可以提供有关预定义数据类型的预定义问题的见解。 |
处理时间 | 数据湖使用户能够在数据转换,清理和结构化之前访问数据。 因此,与传统数据仓库相比,它允许用户更快地获得他们的结果。 | 数据仓库提供了对预定义数据类型的预定义问题的洞察。 因此,对数据仓库的任何更改都需要更多时间。 |
架构的位置 | 通常,在存储数据之后定义模式。 这提供了高灵活性和数据捕获的简易性,但需要在流程结束时进行工作 | 通常,在存储数据之前定义模式。 需要在流程开始时工作,但提供性能,安全性和集成。 |
数据处理 | Data Lakes使用ELT(Extract Load Transform)过程。 | 数据仓库使用传统的ETL(Extract Transform Load)过程。 |
缺点 | 数据以原始形式保存。 它只有在准备好使用时才会被转换。 | 针对数据仓库的主要抱怨是无力,或者在尝试对其进行更改时遇到的问题。 |
主要优点 | 他们整合了不同类型的数据来提出全新的问题,因为这些用户不太可能使用数据仓库,因为他们可能需要超越其功能。 | 组织中的大多数用户都在运营。 这些类型的用户只关心报告和关键绩效指标。 |
摘要:
- 数据仓库是技术和组件的混合体,允许战略性地使用数据。
- Data Lake是一个存储库,可以存储大量结构化,半结构化和非结构化数据。
- 数据仓库将数据存储在模式和表中,这有助于组织和使用数据来制定战略决策。
- Data Lake是一个大型存储库,它以原始格式存储大量原始数据,直到需要它为止。
- 与大数据不同,数据仓库概念已经使用了数十年。
- 大数据技术与数据湖的使用相结合是相对较新的