Snowflake算法核心

最新推荐文章于 2025-05-20 12:07:54 发布

继续微笑lsj

最新推荐文章于 2025-05-20 12:07:54 发布

阅读量1.6k

点赞数

分类专栏：分布式系统

分布式系统专栏收录该内容

54 篇文章

订阅专栏

本文详细介绍了Snowflake算法的工作原理及其组成部分，包括时间戳、工作机器ID和序列号的具体实现方式。阐述了如何通过这些组件高效生成全局唯一标识符（GUID），特别适合于分布式系统中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

把时间戳，工作机器id，序列号组合在一起。

除了最高位bit标记为不可用以外，其余三组bit占位均可浮动，看具体的业务需求而定。默认情况下41bit的时间戳可以支持该算法使用到2082年，10bit的工作机器id可以支持1023台机器，序列号支持1毫秒产生4095个自增序列id。下文会具体分析。

Snowflake – 时间戳

这里时间戳的细度是毫秒级，具体代码如下，建议使用64位linux系统机器，因为有vdso，gettimeofday()在用户态就可以完成操作，减少了进入内核态的损耗。

 
        uint64_t generateStamp()
       
        {
       
        timeval tv;
       
        gettimeofday(&tv, 0);
       
        return 
         (uint64_t)tv.tv_sec * 1000 + (uint64_t)tv.tv_usec / 1000;
       
        }

默认情况下有41个bit可以供使用，那么一共有T（1llu << 41）毫秒供你使用分配，年份 = T / (3600 * 24 * 365 * 1000) = 69.7年。如果你只给时间戳分配39个bit使用，那么根据同样的算法最后年份 = 17.4年。

Snowflake – 工作机器id

严格意义上来说这个bit段的使用可以是进程级，机器级的话你可以使用MAC地址来唯一标示工作机器，工作进程级可以使用IP+Path来区分工作进程。如果工作机器比较少，可以使用配置文件来设置这个id是一个不错的选择，如果机器过多配置文件的维护是一个灾难性的事情。

这里的解决方案是需要一个工作id分配的进程，可以使用自己编写一个简单进程来记录分配id，或者利用Mysql auto_increment机制也可以达到效果。

工作进程与工作id分配器只是在工作进程启动的时候交互一次，然后工作进程可以自行将分配的id数据落文件，下一次启动直接读取文件里的id使用。

PS：这个工作机器id的bit段也可以进一步拆分，比如用前5个bit标记进程id，后5个bit标记线程id之类:D

Snowflake – 序列号

序列号就是一系列的自增id（多线程建议使用atomic），为了处理在同一毫秒内需要给多条消息分配id，若同一毫秒把序列号用完了，则“等待至下一毫秒”。

 
        uint64_t waitNextMs(uint64_t lastStamp)
       
        {
       
        uint64_t cur = 0;
       
        do 
         {
       
        cur = generateStamp();
       
        } 
        while 
         (cur <= lastStamp);
       
        return 
         cur;
       
        }