ClickHouse 的分区、分桶和分片详解

最新推荐文章于 2025-06-07 20:16:24 发布

克里斯蒂亚诺罗纳尔多阿维罗

最新推荐文章于 2025-06-07 20:16:24 发布

阅读量1.3k

点赞数 26

CC 4.0 BY-SA版权

文章标签： clickhouse

本文链接：https://blog.csdn.net/m0_73641796/article/details/145887880

在大数据场景下，数据的存储和查询效率至关重要。ClickHouse 作为一款高性能的列式存储数据库，提供了多种数据组织方式来优化存储和查询，其中最常见的就是 分区（Partition）、分桶（Sampling）、分片（Shard）。本文将详细介绍它们的概念、使用方式以及适用场景。

1. 分区（Partition）

1.1 什么是分区？

分区（Partition）是 ClickHouse 物理上存储数据的基本单元，它将数据按某个逻辑字段进行拆分，并存储到不同的分区目录下。分区的主要作用是 提高查询效率 和 提升数据管理的灵活性。

1.2 如何定义分区？

在 ClickHouse 中，分区是基于 PARTITION BY 语句来定义的。例如：

CREATE TABLE orders (
    order_id UInt64,
    user_id UInt64,
    order_date Date,
    amount Float32
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(order_date)
ORDER BY (user_id, order_id);

上述表的分区策略是基于 order_date 的年月（YYYYMM），即数据会按每个月创建一个分区。

1.3 分区的优势

查询优化：可通过 WHERE 过滤条件来进行 分区裁剪，避免全表扫描。
数据管理：可以使用 DETACH PARTITION、DROP PARTITION 快速删除或移动特定分区的数据。
并行查询：多个分区可以并行处理，提高查询效率。

1.4 分区的注意事项

分区字段要慎重选择，避免过多小分区，影响查询性能。
不能在 ALTER TABLE 中修改分区字段，只能新建表并迁移数据。

2. 分桶（Sampling）

2.1 什么是分桶？

分桶（Sampling）是一种基于 SAMPLE BY 语法的表数据拆分方式，主要用于随机抽样查询。分桶不会物理上拆分数据，而是基于哈希值进行数据分布。

2.2 如何定义分桶？

在 MergeTree 表中，可以使用 SAMPLE BY 来创建分桶，例如：

CREATE TABLE users (
    user_id UInt64,
    name String,
    age UInt8
) ENGINE = MergeTree()
ORDER BY user_id
SAMPLE BY user_id;

2.3 作用与优势

随机抽样查询：
```
SELECT * FROM users SAMPLE 0.1;
```
以上查询会随机抽取 10% 的数据，适用于 A/B 测试等场景。
提升大表查询性能：在数据量庞大的情况下，可以快速获取部分数据进行分析。

2.4 分桶的限制

仅适用于 MergeTree 存储引擎。
必须基于 SAMPLE BY 定义的字段进行采样，否则无法使用 SAMPLE 查询。

3. 分片（Shard）

3.1 什么是分片？

分片（Shard）是指 ClickHouse 在多个物理服务器上存储数据，以支持大规模数据的水平扩展。分片可以手动管理，也可以借助 Distributed 引擎实现自动路由查询。

3.2 如何设置分片？

分片通常结合 Distributed 表来使用：

CREATE TABLE orders_local ON CLUSTER my_cluster (
    order_id UInt64,
    user_id UInt64,
    order_date Date,
    amount Float32
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(order_date)
ORDER BY (user_id, order_id);

CREATE TABLE orders ON CLUSTER my_cluster AS orders_local
ENGINE = Distributed(my_cluster, 'default', 'orders_local', rand());

3.3 分片的作用

提升查询性能：不同的查询可以并行在多个分片上执行。
扩展存储能力：单台服务器存储能力有限，分片后可水平扩展存储。
负载均衡：分片策略可以优化查询负载。

3.4 分片的注意事项

分片策略要均衡，避免数据倾斜。
跨分片查询可能会影响性能，建议结合 Distributed 表使用。
数据复制需搭配 ReplicatedMergeTree，保证高可用。

4. 总结

方式	作用	适用场景
分区	物理拆分，提高查询和管理效率	按时间、地区等维度存储大数据
分桶	逻辑拆分，支持采样查询	A/B 测试、大数据抽样分析
分片	分布式存储，提升可扩展性	超大规模数据集群部署

通过合理使用 ClickHouse 的 分区、分桶和分片，可以大幅提升查询效率，优化存储结构，使 ClickHouse 更加适用于大数据分析场景。