官网号称:QwQ-32B 是中型推理模型,能够与 DeepSeek-R1、o1-mini 等最先进的推理模型取得竞争性性能。
qwq-32b与deepseek-r1满血版的全方位效果对比:
模型性能
特性 | qwq-32b | deepseek-r1满血版 |
---|---|---|
数学推理 | 在AIME24数学评测集上,qwq-32b的表现与deepseek-r1相当,远超openai-o1-mini和同尺寸的r1蒸馏模型。 | 表现强劲,但qwq-32b已与其相当。 |
编程能力 | 在livecodebench编程能力评测中,qwq-32b与deepseek-r1表现相当。 | 略胜一筹,展现出强大的代码生成和理解能力。 |
通用能力 | 在livebench、ifeval、bfcl等评测中,qwq-32b的得分均超越了deepseek-r1。 | 表现优秀,但在这些评测中稍逊于qwq-32b。 |