TPM限制的详细解释

最新推荐文章于 2025-06-13 09:00:16 发布

DATAO丶

最新推荐文章于 2025-06-13 09:00:16 发布

阅读量939

点赞数 15

CC 4.0 BY-SA版权

文章标签：语言模型

本文链接：https://blog.csdn.net/weixin_43474841/article/details/147635135

TPM限制的详细解释

TPM（Tokens Per Minute）限制是一种针对大语言模型（LLM）请求的限流机制，主要用于控制单位时间内处理的token数量。在您的大模型网关项目中，这是一个非常重要的控制机制。

TPM的基本概念

Token的定义：在大语言模型中，token是文本的基本单位，可以是单词、部分单词或标点符号。不同模型的tokenization方式可能不同，但一般来说，英文中一个token大约相当于4个字符，中文则大约一个汉字对应一个token。
TPM计算方式：TPM计算的是每分钟处理的token总数，包括：
- 输入token（prompt tokens）：用户发送给模型的文本
- 输出token（completion tokens）：模型生成的回复文本

TPM限制的实现方式

在我提供的代码实现中，TPM限制的核心逻辑如下：

按模型和厂商分别限制：每个模型和厂商组合都有自己的TPM限额

private boolean checkTpmLimit(String key, int tokenCount) {
    String tpmKey = key + ":tpm:" + (System.currentTimeMillis() / 60000);
    Long currentCount = redisTemplate.opsForValue().increment(tpmKey, 0);
    
    if (currentCount == null) {
        currentCount = 0L;
    }
    
    // 获取该模型的TPM限制
    Integer tpmLimit = (Integer) redisTemplate.opsForValue().get(key + ":tpmLimit");
    if (tpmLimit == null) {
        tpmLimit = DEFAULT_TPM_LIMIT;
    }
    
    // 检查是否超过限制
    return (currentCount + tokenCount) <= tpmLimit;
}

使用Redis实现分布式计数：通过Redis存储每分钟的token使用量，支持分布式部署

private void recordRequest(String key, int tokenCount) {
    String tpmKey = key + ":tpm:" + (System.currentTimeMillis() / 60000);
    redisTemplate.opsForValue().increment(tpmKey, tokenCount);
    redisTemplate.expire(tpmKey, 2, TimeUnit.MINUTES);
}