clickhouse 查询优化_clickhouse优化最佳实践(持续更新...)

最新推荐文章于 2025-06-03 11:34:38 发布

原创

最新推荐文章于 2025-06-03 11:34:38 发布 · 3.8k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#clickhouse 查询优化

本文介绍了ClickHouse在易企秀数据仓库项目中的应用，强调了查询优化的重要性。包括表优化（数据类型、分区和索引、表参数），查询优化（单表查询、数据采样、避免全量查询、去重和排序优化），多表关联，以及写入和删除优化。建议使用预过滤（prewhere）、采样查询、物化视图和避免小表JOIN等技巧提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

clickhouse在易企秀数据仓库项目中已投入使用两年，主要为内部用户提供快速查询和多维分析的能力；希望你在业务当中遇到的性能问题，在这里都能得到解决

Clickhouse堪称OLAP领域的黑马，最近发布的几个版本在多表关联分析上也有了极大的性能提升，尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。

表优化

数据类型

建表时能用数值型或日期时间型表示的字段，就不要用字符串——全String类型在以Hive为中心的数仓建设中常见，但CK环境不应受此影响。

虽然clickhouse底层将DateTime存储为时间戳Long类型，但不建议直接存储Long类型，因为DateTime不需要经过函数转换处理，执行效率高、可读性好。

官方已经指出Nullable类型几乎总是会拖累性能，因为存储Nullable列时需要创建一个额外的文件来存储NULL的标记，并且Nullable列无法被索引。因此除非极特殊情况，应直接使用字段默认值表示空，或者自行指定一个在业务中无意义的值(例如用-1表示没有商品ID)。

分区和索引

分区粒度根据业务特点决定，不宜过粗或过细。一般选择按天分区，也可指定为tuple()；以单表1亿数据为例，分区大小控制在10-30个为最佳。

PARTITION BY tuple()

必须指定索引列，clickhouse中的索引列即排序列，通过order by指定，一般在查询条件中经常被用来充当筛选条件的属性被纳入进来；可以是单一维度，也可以是组合维度的索引；通常需要满足高基列在前、查询频率大的在前原则；还有基数特别大的不适合做索引列，如用户表的userid字段；通常筛选后的数据满足在百万以内为最佳。

表参数

index_granularity 是用来控制索引粒度的默认是8192，如非必须不建议调整。

如果表中不是必须保留全量历史数据，建议指定TTL，可以免去手动过期历史数据的麻烦。TTL也可以通过ALTER TABLE语句随

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。