clickhouse基础学习

2024-01-24 本文已影响0人 woods_deamon

一、是什么

ClickHouse是一个开源的列式数据库管理系统，专门设计用于处理大规模数据分析和OLAP（在线分析处理）工作负载。它最初由俄罗斯的Yandex公司开发，并于2016年发布为开源项目。

二、有什么特点

列式存储：ClickHouse以列式存储方式组织数据，这意味着相同列中的数据存储在一起，这种存储方式在分析查询和聚合操作中非常高效。
高性能：ClickHouse被设计成能够处理非常大的数据集，并能够快速执行复杂的分析查询。它通过使用多核CPU和高度优化的查询执行引擎来实现高性能。
支持SQL：ClickHouse支持SQL查询语言，这使得它易于使用和集成到现有的数据分析工具和应用程序中。
分布式架构：ClickHouse可以轻松扩展到多个节点，以处理大规模数据集。它支持数据分片、负载均衡和故障容忍，以确保高可用性和可伸缩性。
实时数据导入：ClickHouse支持实时数据导入，可以从各种数据源实时接收数据，这对于处理流式数据和实时分析非常有用。
开源：ClickHouse是开源的，可以免费使用和定制，因此它在许多组织中得到了广泛的应用。

三、常用的业务场景

数据仓库: ClickHouse可以用作企业数据仓库，用于存储和分析大规模的历史数据。它支持高性能的复杂查询和聚合操作，有助于发现数据中的趋势和洞察。
实时报告和仪表盘: ClickHouse可以用于构建实时报告和仪表盘，通过实时数据导入和快速查询执行，帮助业务决策者实时监控业务绩效。
广告分析: 在广告技术领域，ClickHouse可用于跟踪广告活动的效果，分析点击率、转化率和ROI等关键指标。
日志分析: ClickHouse非常适合处理大量日志数据，例如服务器日志、应用程序日志和网络流量日志。它能够快速执行日志分析查询，帮助识别问题和异常。
事件追踪: 许多应用程序需要追踪用户活动和事件。ClickHouse可以用于存储和分析这些事件数据，以提供洞察用户行为和趋势的见解。
时序数据分析: 时序数据（例如传感器数据、监控数据、时间序列数据库中的数据）的存储和分析是ClickHouse的另一个强大用途。它支持时间窗口查询和聚合，使其成为处理时序数据的理想选择。
数据湖分析: ClickHouse可以与数据湖架构集成，用于在数据湖中存储和分析大规模数据集。
在线广告投放: ClickHouse可以帮助广告技术公司实时调整广告投放策略，以提高广告的定位精度和效率。
金融分析: 金融领域需要处理大量的交易和市场数据。ClickHouse可以用于执行复杂的金融分析，例如风险评估、投资组合优化和市场趋势分析。
运营分析: 企业可以使用ClickHouse来分析运营数据，包括库存管理、供应链优化和客户关系管理。

总之，ClickHouse在需要大规模数据存储、高性能查询和实时数据分析的各种业务场景中都可以发挥作用。它的设计使其适用于处理大数据和复杂分析需求的情况。

四、为什么它可以查询的这么快？

列式存储: 列式存储，减少I/O操作和数据传输量。ClickHouse采用列式存储，这意味着它将相同列的数据存储在一起，而不是行式存储中将整行数据存储在一起。这种列式存储方式使得只需读取和解析实际需要的列数据，从而减少了I/O操作和数据传输量。这对于数据分析查询非常高效，因为通常只需要一部分列数据来回答查询。
数据压缩: 压缩减少传输时间。ClickHouse使用高度优化的压缩算法，将数据在存储时压缩，这不仅减小了磁盘占用空间，还减少了数据传输时间。在查询时，ClickHouse能够在内存中快速解压数据，从而加快查询速度。
多核并行处理: 数据存在分布式多态服务器上，利用多台服务器的CPU并行查询。ClickHouse充分利用多核CPU和多线程技术，可以并行执行查询操作。这意味着可以同时处理多个查询片段，提高了查询性能。
合并操作: 按照查询条件只查询某些数据块的数据，扫描的数据范围会变小。ClickHouse使用合并操作来优化查询，避免不必要的数据移动。它将数据按块（block）存储，并在查询时尽可能使用整个块。这减少了不必要的数据复制和操作。
索引技术: ClickHouse支持索引，这可以加速某些查询，特别是在过滤条件上使用索引列时。索引使得数据的查找更加高效，从而加速了查询。
向量化执行: ClickHouse使用向量化查询执行，这意味着它可以在一次操作中处理多个数据点，而不是逐个处理。这种向量化执行方式减少了CPU指令的开销，提高了查询速度。
数据分区和负载均衡: ClickHouse支持数据分区和负载均衡，可以将数据分散存储在多个节点上，并在查询时将工作负载均衡分配到不同的节点上。这有助于水平扩展和提高查询性能。

五、clickhouse的底层数据存储

数据在clickhouse以何种形式被存储要看使用的是什么表引擎。表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。

5.1 MergeTree家族（合并树）

之所以说是合并树家族，是因为MergeTree衍生了好几个与之类似的引擎。

MergeTree 最基础的版本,支持数据分区,后台自动合并。
ReplacingMergeTree: 支持替换旧数据的MergeTree。在同一个分区内，clickhouse在后台合并数据的时候会删除重复数据，注意这里是同一个分区内的去重效果。
SummingMergeTree: 支持把多行数据合并求和的MergeTree。在合并分区的时候，将同一分组下的多行数据提前汇总合并成一行，这样减少了数据行，又降低了后续汇总查询的开销。
AggregatingMergeTree: 支持聚合的MergeTree。将需要聚合的数据预先计算出来，并将结果保存起来，在后续进行聚合查询的时候直接使用结果数据。
CollapsingMergeTree: 支持数据折叠（意思就是以增代删）的MergeTree。它通过定义一个sign标志位字段，记录数据行的状态，如果sign标记为1，则表示这是一行有效的数据，如果是-1，则表示这行数据需要被删除。CollapsingMergeTree合并数据时，同一分区，sign为1和-1的数据会被抵消删除。犹如折叠一般。这个引擎还有个使用条件，就是对于写入数据的顺序有严格的要求，如果先写入sign=-1的数据，在写入sign=1的数据，则不能够折叠。所以如果你写入数据是用的多线程写入，大概率有问题。
VersionedCollapsingMergeTree:结合版本控制的CollapsingMergeTree。这个就是为了解决上面说的写入顺序的问题。加了个版本号。数据会自动按照orderby version，这样就有确定的顺序。

......等等

image.png

5.2 Memory（内存）

自行了解下面的存储结构

clickhouse基础学习

一、是什么

二、有什么特点

三、常用的业务场景

四、为什么它可以查询的这么快？

五、clickhouse的底层数据存储

5.1 MergeTree家族（合并树）

5.2 Memory（内存）

5.3 文件

5.4 第三方自定义

猜你喜欢

热点阅读