分布式唯一ID生成算法——雪花算法（Snowflake）

最新推荐文章于 2025-06-17 09:56:53 发布

纪元A梦

最新推荐文章于 2025-06-17 09:56:53 发布

阅读量3.2k

点赞数 8

CC 4.0 BY-SA版权

分类专栏：分布式算法文章标签：分布式 java 分布式算法

本文链接：https://blog.csdn.net/sinat_26368147/article/details/146094348

分布式算法专栏收录该内容

30 篇文章

订阅专栏

全面详解 Java 实现雪花算法（Snowflake）

一、分布式 ID 生成需求背景

在分布式系统中，唯一 ID 的生成是核心基础功能之一。常见的场景包括：

订单号生成：需全局唯一且具备时间有序性
用户 ID 分配：避免重复和冲突
日志跟踪：通过 ID 串联分布式调用链
数据库分片：作为主键支持高效索引

传统方案如数据库自增 ID、UUID 存在明显缺陷：

数据库自增 ID：无法扩展，单点故障风险高
UUID：无序且字符串存储效率低（128 位）
Redis 自增：增加系统复杂度，网络开销大

雪花算法（Snowflake）因其高性能、低延迟、有序性等优势，成为主流的分布式 ID 生成方案。

二、雪花算法核心原理

Twitter 开源算法，生成 64 位 Long 型 ID，二进制结构如下：

 0 | 00000000000000000000000000000000000000000 | 00000 | 00000 | 000000000000 
   |--------------- 41位时间戳 ----------------|--5位--|-5位--|----12位序列号----
                   |                           数据中心ID 机器ID 
                   |--------------------------- 10位工作节点ID ---------------|

各部分详解

符号位（1bit）
固定为 0，保证生成的 ID 为正数。
时间戳（41bit）
当前时间与起始时间的毫秒差值，可用约 69 年：
(1L << 41) / (1000L * 60 * 60 * 24 * 365) ≈ 69
工作节点 ID（10bit）
支持最多 1024 个节点，通常拆分为：
- 数据中心 ID（5bit，32 个）
- 机器 ID（5bit，32 台/数据中心）
序列号（12bit）
同一毫秒内的自增序号，支持每节点每毫秒生成 4096 个 ID。

三、Java 实现步骤详解

1. 定义常量

public class SnowflakeIdGenerator {
    // 起始时间戳（2023-01-01 00:00:00）
    private final static long START_STAMP = 1672531200000L;

    // 各部分位数
    private final static long SEQUENCE_BIT = 12;   // 序列号
    private final static long MACHINE_BIT = 5;      // 机器标识
    private final static long DATACENTER_BIT = 5;   // 数据中心
    
    // 最大值计算
    private final static long MAX_DATACENTER_NUM = ~(-1L << DATACENTER_BIT);
    private final static long MAX_MACHINE_NUM = ~(-1L << MACHINE_BIT);
    private final static long MAX_SEQUENCE = ~(-1L << SEQUENCE_BIT);

    // 移位偏移量
    private final static long MACHINE_LEFT = SEQUENCE_BIT;
    private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
    private final static long TIMESTAMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT;

    // 成员变量
    private long datacenterId;  // 数据中心
    private long machineId;     // 机器标识
    private long sequence = 0L; // 序列号
    private long lastStamp = -1L; // 上次时间戳

    // 构造函数初始化节点ID
    public SnowflakeIdGenerator(long datacenterId, long machineId) {
        if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) {
            throw new IllegalArgumentException("数据中心ID范围超限");
        }
        if (machineId > MAX_MACHINE_NUM || machineId < 0) {
            throw new IllegalArgumentException("机器ID范围超限");
        }
        this.datacenterId = datacenterId;
        this.machineId = machineId;
    }
}

2. 核心生成方法

public synchronized long nextId() {
    long currStamp = getCurrentTimeMillis();
    
    if (currStamp < lastStamp) {
        throw new RuntimeException("时钟回拨，拒绝生成ID");
    }

    if (currStamp == lastStamp) {
        // 同一毫秒内序列号自增
        sequence = (sequence + 1) & MAX_SEQUENCE;
        // 序列号溢出处理
        if (sequence == 0) {
            currStamp = getNextMill();
        }
    } else {
        // 新毫秒重置序列号
        sequence = 0L;
    }

    lastStamp = currStamp;

    // 组合各部分生成最终ID
    return (currStamp - START_STAMP) << TIMESTAMP_LEFT
            | datacenterId << DATACENTER_LEFT
            | machineId << MACHINE_LEFT
            | sequence;
}

// 阻塞到下一毫秒
private long getNextMill() {
    long mill = getCurrentTimeMillis();
    while (mill <= lastStamp) {
        mill = getCurrentTimeMillis();
    }
    return mill;
}

private long getCurrentTimeMillis() {
    return System.currentTimeMillis();
}

3. 时钟回拨处理优化

实际生产环境中需更健壮的回拨处理：

// 容忍毫秒级回拨
private long waitNextMillis(long lastStamp) {
    long current = System.currentTimeMillis();
    while (current <= lastStamp) {
        Thread.sleep(1);
        current = System.currentTimeMillis();
    }
    return current;
}

// 增强版处理逻辑
public synchronized long nextIdV2() throws InterruptedException {
    long currStamp = getCurrentTimeMillis();
    
    if (currStamp < lastStamp) {
        long offset = lastStamp - currStamp;
        if (offset <= 5) {  // 容忍5ms内的回拨
            Thread.sleep(offset);
            currStamp = getCurrentTimeMillis();
        } else {
            throw new RuntimeException("严重时钟回拨，需人工处理");
        }
    }
    // ...后续逻辑同基础版
}

四、关键问题与优化策略

1. 时间同步问题

问题原因：NTP 服务器调整系统时间
解决方案：
- 关闭系统自动时间同步
- 使用独立的时间服务器（如 GPS 时钟）
- 记录连续递增的时间戳（如美团 Leaf 方案）

2. 工作节点 ID 分配

静态配置：运维手动分配，适合节点数固定场景
动态注册：使用 Zookeeper/Etcd 等协调服务自动分配
IP 编码：将 IP 地址后几位转为数字作为节点 ID

3. 性能优化

缓冲池预生成：提前生成一批 ID 放入队列
异步刷新：定时检测时间戳，避免频繁计算
位运算优化：使用位移代替乘法运算

4. 扩展变种算法

MongoDB ObjectId：4 字节时间 + 5 字节随机 + 3 字节递增
百度 UidGenerator：引入 Worker Node 概念，解决重启 sequence 重置
美团 Leaf：号段缓冲结合雪花算法，解决时钟问题

五、完整测试用例

public class TestSnowflake {
    public static void main(String[] args) {
        SnowflakeIdGenerator generator = new SnowflakeIdGenerator(2, 3);
        
        // 单线程测试
        for (int i = 0; i < 10; i++) {
            System.out.println(generator.nextId());
        }
        
        // 多线程测试
        ExecutorService pool = Executors.newFixedThreadPool(10);
        for (int i = 0; i < 1000; i++) {
            pool.execute(() -> {
                System.out.println(generator.nextId());
            });
        }
        pool.shutdown();
    }
}

六、应用场景分析

电商交易系统
订单号需满足：
- 全局唯一：避免不同商家订单冲突
- 趋势递增：利于 MySQL InnoDB 聚簇索引
- 时间可读：通过 ID 反推订单生成时间
分布式日志追踪
使用雪花 ID 作为 TraceID，便于：
- 按时间排序日志
- 快速定位问题发生时段
- 跨服务调用链路追踪
物联网设备标识
每个传感器分配唯一 ID：
- 低延迟：边缘设备快速生成
- 去中心化：无需连接协调服务
- 紧凑存储：Long 型比 UUID 节省空间