clickhouse基础学习
一、是什么
ClickHouse是一个开源的列式数据库管理系统,专门设计用于处理大规模数据分析和OLAP(在线分析处理)工作负载。它最初由俄罗斯的Yandex公司开发,并于2016年发布为开源项目。
二、有什么特点
-
列式存储:ClickHouse以列式存储方式组织数据,这意味着相同列中的数据存储在一起,这种存储方式在分析查询和聚合操作中非常高效。
-
高性能:ClickHouse被设计成能够处理非常大的数据集,并能够快速执行复杂的分析查询。它通过使用多核CPU和高度优化的查询执行引擎来实现高性能。
-
支持SQL:ClickHouse支持SQL查询语言,这使得它易于使用和集成到现有的数据分析工具和应用程序中。
-
分布式架构:ClickHouse可以轻松扩展到多个节点,以处理大规模数据集。它支持数据分片、负载均衡和故障容忍,以确保高可用性和可伸缩性。
-
实时数据导入:ClickHouse支持实时数据导入,可以从各种数据源实时接收数据,这对于处理流式数据和实时分析非常有用。
-
开源:ClickHouse是开源的,可以免费使用和定制,因此它在许多组织中得到了广泛的应用。
三、常用的业务场景
- 数据仓库: ClickHouse可以用作企业数据仓库,用于存储和分析大规模的历史数据。它支持高性能的复杂查询和聚合操作,有助于发现数据中的趋势和洞察。
- 实时报告和仪表盘: ClickHouse可以用于构建实时报告和仪表盘,通过实时数据导入和快速查询执行,帮助业务决策者实时监控业务绩效。
- 广告分析: 在广告技术领域,ClickHouse可用于跟踪广告活动的效果,分析点击率、转化率和ROI等关键指标。
- 日志分析: ClickHouse非常适合处理大量日志数据,例如服务器日志、应用程序日志和网络流量日志。它能够快速执行日志分析查询,帮助识别问题和异常。
- 事件追踪: 许多应用程序需要追踪用户活动和事件。ClickHouse可以用于存储和分析这些事件数据,以提供洞察用户行为和趋势的见解。
- 时序数据分析: 时序数据(例如传感器数据、监控数据、时间序列数据库中的数据)的存储和分析是ClickHouse的另一个强大用途。它支持时间窗口查询和聚合,使其成为处理时序数据的理想选择。
- 数据湖分析: ClickHouse可以与数据湖架构集成,用于在数据湖中存储和分析大规模数据集。
- 在线广告投放: ClickHouse可以帮助广告技术公司实时调整广告投放策略,以提高广告的定位精度和效率。
- 金融分析: 金融领域需要处理大量的交易和市场数据。ClickHouse可以用于执行复杂的金融分析,例如风险评估、投资组合优化和市场趋势分析。
- 运营分析: 企业可以使用ClickHouse来分析运营数据,包括库存管理、供应链优化和客户关系管理。
总之,ClickHouse在需要大规模数据存储、高性能查询和实时数据分析的各种业务场景中都可以发挥作用。它的设计使其适用于处理大数据和复杂分析需求的情况。
四、为什么它可以查询的这么快?
-
列式存储: 列式存储,减少I/O操作和数据传输量。ClickHouse采用列式存储,这意味着它将相同列的数据存储在一起,而不是行式存储中将整行数据存储在一起。这种列式存储方式使得只需读取和解析实际需要的列数据,从而减少了I/O操作和数据传输量。这对于数据分析查询非常高效,因为通常只需要一部分列数据来回答查询。
-
数据压缩: 压缩减少传输时间。ClickHouse使用高度优化的压缩算法,将数据在存储时压缩,这不仅减小了磁盘占用空间,还减少了数据传输时间。在查询时,ClickHouse能够在内存中快速解压数据,从而加快查询速度。
-
多核并行处理: 数据存在分布式多态服务器上,利用多台服务器的CPU并行查询。ClickHouse充分利用多核CPU和多线程技术,可以并行执行查询操作。这意味着可以同时处理多个查询片段,提高了查询性能。
-
合并操作: 按照查询条件只查询某些数据块的数据,扫描的数据范围会变小。ClickHouse使用合并操作来优化查询,避免不必要的数据移动。它将数据按块(block)存储,并在查询时尽可能使用整个块。这减少了不必要的数据复制和操作。
-
索引技术: ClickHouse支持索引,这可以加速某些查询,特别是在过滤条件上使用索引列时。索引使得数据的查找更加高效,从而加速了查询。
-
向量化执行: ClickHouse使用向量化查询执行,这意味着它可以在一次操作中处理多个数据点,而不是逐个处理。这种向量化执行方式减少了CPU指令的开销,提高了查询速度。
-
数据分区和负载均衡: ClickHouse支持数据分区和负载均衡,可以将数据分散存储在多个节点上,并在查询时将工作负载均衡分配到不同的节点上。这有助于水平扩展和提高查询性能。
五、clickhouse的底层数据存储
数据在clickhouse以何种形式被存储要看使用的是什么表引擎。表引擎,决定了一张 数据表最终的性格,它拥有何种特性、数据以何种形式被存储以及如何被加载。
5.1 MergeTree家族(合并树)
之所以说是合并树家族,是因为MergeTree衍生了好几个与之类似的引擎。
-
MergeTree 最基础的版本,支持数据分区,后台自动合并。
-
ReplacingMergeTree: 支持替换旧数据的MergeTree。在同一个分区内,clickhouse在后台合并数据的时候会删除重复数据,注意这里是同一个分区内的去重效果。
-
SummingMergeTree: 支持把多行数据合并求和的MergeTree。在合并分区的时候,将同一分组下的多行数据提前汇总合并成一行,这样减少了数据行,又降低了后续汇总查询的开销。
-
AggregatingMergeTree: 支持聚合的MergeTree。将需要聚合的数据预先计算出来,并将结果保存起来,在后续进行聚合查询的时候直接使用结果数据。
-
CollapsingMergeTree: 支持数据折叠(意思就是以增代删)的MergeTree。它通过定义一个sign标志位字段,记录数据行的状态,如果sign标记为1,则表示这是一行有效的数据,如果是-1,则表示这行数据需要被删除。CollapsingMergeTree合并数据时,同一分区,sign为1和-1的数据会被抵消删除。犹如折叠一般。这个引擎还有个使用条件,就是对于写入数据的顺序有严格的要求,如果先写入sign=-1的数据,在写入sign=1的数据,则不能够折叠。所以如果你写入数据是用的多线程写入,大概率有问题。
-
VersionedCollapsingMergeTree:结合版本控制的CollapsingMergeTree。这个就是为了解决上面说的写入顺序的问题。加了个版本号。数据会自动按照orderby version,这样就有确定的顺序。
......等等
image.png
5.2 Memory(内存)
自行了解下面的存储结构