CMU15445 Column compression

最新推荐文章于 2025-08-04 23:14:52 发布

ymdxe

最新推荐文章于 2025-08-04 23:14:52 发布

阅读量660

点赞数 13

CC 4.0 BY-SA版权

分类专栏： CMU15445 文章标签：数据库

本文链接：https://blog.csdn.net/m0_74829421/article/details/142987202

CMU15445 专栏收录该内容

9 篇文章

订阅专栏

在数据库压缩中，有多种不同的编码方案用于有效压缩和存储数据，以减少存储空间和提高查询效率。包括运行长度编码（RLE）、位打包编码（Bit-Packing Encoding）、位图编码（Bitmap Encoding）、增量编码（Delta Encoding）、**字典压缩（Dictionary Compression）**等，都有其特定的应用场景和优缺点。

1. 运行长度编码（RLE - Run-Length Encoding）

定义：运行长度编码将同一列中连续出现的相同值压缩为三元组：值、开始位置（offset）和运行长度（length）。
特点：压缩效果高度依赖数据的特性。例如，如果数据已经经过排序，重复值会聚集在一起，这样RLE就可以实现高效压缩。对于有大量重复值的数据，RLE能显著降低存储需求。
应用场景：适合对重复数据多的列进行压缩，尤其是在分析型工作负载中，数据倾向于聚集相似值。
图片示例

#include <iostream>
#include <vector>
#include <tuple> // for std::tuple

using namespace std;

// RLE 压缩函数
vector<tuple<int, int, int>> compressRLE(const vector<int>& data) {
    vector<tuple<int, int, int>> compressedData;
    if (data.empty()) return compressedData;

    int currentValue = data[0];
    int startPosition = 0;
    int runLength = 1;

    for (size_t i = 1; i < data.size(); i++) {
        if (data[i] == currentValue) {
            runLength++;
        } else {
            compressedData.push_back(make_tuple(currentValue, startPosition, runLength));
            currentValue = data[i];
            startPosition = i;
            runLength = 1;
        }
    }
    compressedData.push_back(make_tuple(currentValue, startPosition, runLength)); // 添加最后一段

    return compressedData;
}

// 解压缩 RLE 数据
vector<int> decompressRLE(const vector<tuple<int, int, int>>& compressedData) {
    vector<int> decompressedData;

    for (const auto& entry : compressedData) {
        int value, startPos, length;
        tie(value, startPos, length) = entry;

        for (int i = 0; i < length; i++) {
            decompressedData.push_back(value);
        }
    }

    return decompressedData;
}

int main() {
    vector<int> columnData = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5};
    
    // 压缩数据
    vector<tuple<int, int, int>> compressedData = compressRLE(columnData);
    cout << "Compressed Data (Value, Start Position, Length): ";
    for (const auto& entry : compressedData) {
        int value, startPos, length;
        tie(value, startPos, length) = entry;
        cout << "(" << value << ", " << startPos << ", " << length << ") ";
    }
    cout << endl;

    // 解压缩数据
    vector<int> decompressedData = decompressRLE(compressedData);
    cout << "Decompressed Data: ";
    for (int val : decompressedData) {
        cout << val << " ";
    }
    cout << endl;

    return 0;
}

2. 位打包编码（Bit-Packing Encoding）

定义：位打包编码用于将值小于声明的最大大小的属性以更少的位存储。主要目的是节省存储空间，尤其是当实际数据的位宽比声明的位宽小得多时。
特点：适合定长值，但在某些情况下也会使用特殊的标记来表示某些值超过了声明的大小。
应用场景：适用于大多数值较小，偶尔有极端值的情况。常见于列存储的压缩。

3. 位图编码（Bitmap Encoding）

定义：位图编码为每个属性值存储一个单独的位图，其中每个偏移量对应于一个元组。
特点：位图编码在属性的基数（cardinality）较低时特别有效，即属性值较少。如果属性值的基数较高，位图的大小可能比原始数据还要大。
应用场景：非常适合低基数的数据，例如性别或二进制状态。
改进：对于稀疏数据集，可以使用Roaring Bitmaps等压缩位图结构来提高效率。
Roaring Bitmaps

4. 增量编码（Delta Encoding）

定义：增量编码不是存储确切的值，而是记录相邻值之间的差异。可以将基准值存储在行内或单独的查找表中。
特点：适合数值型数据，尤其是有序数据。可以结合RLE进行更高效的压缩。
应用场景：适用于增序或降序排列的列数据，例如时间戳、价格等。

5. 字典压缩（Dictionary Compression）

定义：字典压缩是最常见的数据库压缩方案。DBMS用较小的代码替换频繁出现的值，并维护一个字典来将代码映射回原始值。
特点：字典压缩需要支持快速的编码和解码，还需支持排序（order-preserving encodings），以便在压缩数据上进行范围查询。
应用场景：非常适合具有重复值的文本或分类属性数据（如字符串）。
总结：
这些编码方案的共同目标是减少数据存储空间，但它们的适用性取决于数据的特性和访问模式。像RLE和增量编码适合连续的数值数据，而位图编码适合低基数属性。字典压缩是通用方案，适用于高频率的值。压缩技术的选择需要在压缩率和解压缩性能之间取得平衡。