clickhousedbClickHouse大数据-clickhouse

clickhouse优化最佳实践(易企秀)

2020-07-28  本文已影响0人  郭彦超

clickhouse在易企秀数据仓库项目中已投入使用两年,主要为内部用户提供快速查询和多维分析的能力;希望你在业务当中遇到的性能问题,在这里都能得到解决

Clickhouse堪称OLAP领域的黑马,最近发布的几个版本在多表关联分析上也有了极大的性能提升,尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。

表优化

数据类型

分区和索引

PARTITION BY tuple() 

表参数

查询优化

单表查询

# prewhere 会自动优化执行过滤阶段的数据读取方式,降低io操作
select * from work_basic_model  where product='tracker_view' and ( id='eDf8fZky' or code='eDf8fZky' ) 
#替换where关键字
select * from work_basic_model  prewhere product='tracker_view' and ( id='eDf8fZky' or code='eDf8fZky' ) 

SELECT
    Title,
    count() * 10 AS PageViews
FROM hits_distributed
SAMPLE 0.1   #代表采样10%的数据,也可以是具体的条数
WHERE
    CounterID = 34
GROUP BY Title
ORDER BY PageViews DESC LIMIT 1000

采样修饰符只有在mergetree engine表中才有效,且在创建表时需要指定采样策略;

select id ,pv, uv , pv/uv rate 
# 通过物化视图提前预计算用户下载量
CREATE MATERIALIZED VIEW download_hour_mv
ENGINE = SummingMergeTree
PARTITION BY toYYYYMM(hour) ORDER BY (userid, hour)
AS SELECT
  toStartOfHour(when) AS hour,
  userid,
  count() as downloads,
  sum(bytes) AS bytes
FROM download WHERE when >= toDateTime('2020-10-01 00:00:00')  #设置更新点,该时间点之前的数据可以通过insert into select的方式进行插入
GROUP BY userid, hour

## 或者
CREATE MATERIALIZED VIEW db.table_MV TO db.table_new  ## table_new 可以是一张mergetree表
AS SELECT * FROM db.table_old; 

# 不建议添加populate关键字进行全量更新

多表关联

select a.* from a where a.uid in (select uid from b)
# 不要写成
select a.* from a left join b on a.uid=b.uid
ENGINE = Dictionary(dict_name)
或者
create database db_dic ENGINE = Dictionary

写入和删除优化

运维相关

配置

配置 描述
background_pool_size 后台用来merge进程的大小,默认是16,建议改成cpu个数的2倍
log_queries 默认值为0,修改为1,系统会自动创建system_query_log表,并记录每次查询的query信息
max_execution_time 设置单次查询的最大耗时,单位是秒;默认无限制;需要注意的是客户端的超时设置会覆盖该参数
max_threads 设置单个查询所能使用的最大cpu个数;默认是CPU核数
max_memory_usage 一般按照CPU核心数的2倍去设置最大内存使用
max_bytes_before_external_group_by 一般按照max_memory_usage的一半设置内存,当group使用内存超出阈值后会刷新到磁盘进行

存储

clickhouse不支持设置多数据目录,为了提升数据io性能,可以挂载虚拟券组,一个券组绑定多块物理磁盘提升读写性能;多数查询场景SSD盘会比普通机械硬盘快2-3倍。

数据同步

新版clickhouse提供了一个实验性的功能,那就是我们可以将clickhouse伪装成mysql的一个备库去实时对齐mysql中的数据,当mysql库表数据发生变化时会实时同步到clickhouse中;这样就省掉了单独维护实时spark/flink任务读取kafka数据再存入clickhouse的环节,大大降低了运维成本提升了效率。

CREATE DATABASE ckdb ENGINE = MaterializeMySQL('172.17.0.2:3306', 'ckdb', 'root', '123');

查询熔断

为了避免因个别慢查询引起的服务雪崩问题,除了可以为单个查询设置超时以外,还可以配置周期熔断;在一个查询周期内,如果用户频繁进行慢查询操作超出规定阈值后将无法继续进行查询操作:


熔断策略
绑定用户

clickhouse权限管理与资源隔离
clickhouse高级功能上线之mysql实时数据同步

clickhouse如何构建复杂数据模型
clickhouse sql规范

上一篇下一篇

猜你喜欢

热点阅读