前言
最新一期的 LiveBench 国际权威榜单放出来,阿里通义千问 QwQ-32B 一举冲进全球前五,并且直接坐稳最强开源模型的宝座!
过去几年,聊起开源大模型,大家第一反应肯定是 Meta(Llama)、Mistral 这些欧美厂牌,基本是他们说了算。而如今,我们的DQ(DeepSeek & Qwen)以压倒性优势登顶 LiveBench,标志着中国 AI 开源模型正式进入全球第一梯队!
作为32B的参数量的轻量级选手,它超越那些动辄数百亿参数的巨型模型 OpenAI GPT-4.5 preview、Google Gemini 2.0等一众顶级闭源模型,更是在开源模型中稳坐最强之位!
LiveBench官网:https://livebench.ai/#/
从曾经的追赶者,到今天的全球领跑者,中国 AI 正在迎来自己的高光时刻!
QwQ-32B的核心:强化学习
Qwen 团队在模型训练过程中,采用了高质量的强化学习(RL),真的挺猛的,使得 QwQ-32B 在数学、编程等核心任务上取得突破
第一阶段:专攻数学 & 编程,模型能力持续攀升
- 在冷启动的基础上,他们进行了大规模强化学习(RL),首先重点优化数学和编程能力。不同于传统奖励模型,他们直接校验数学答案的正确性,并通过代码执行服务器验证代码是否能通过测试用例。随着 RL 训练的推进,这两项能力持续提升。
第二阶段:通用能力强化,确保整体性能均衡提升!
- 随后,他们加入针对通用能力的 RL 训练,结合通用奖励模型和规则验证器,进一步优化整体性能,同时确保数学和编程能力不受影响。
在数学能力测试AIME24评测集和代码能力评估LiveCodeBench中,千问 QwQ-32B 的表现与DeepSeek-R1旗鼓相当,远超o1-mini及同尺寸的R1 蒸馏模型。
此外,在多个权威评测中,QwQ-32B 也展现出全面领先的实力:
- 在由Meta 首席科学家杨立昆领衔的LiveBench中,QwQ-32B 得分超越 DeepSeek-R1。
- 在 谷歌 IFEval(指令遵循能力评测)中,QwQ-32B 交出更优答卷。
- 在 BFCL 测试(由加州大学伯克利分校等提出,用于评估大模型调用函数/工具的准确性)中,QwQ-32B 同样表现强于 DeepSeek-R1。
亲测,用Ollama和q4量化的QwQ-32B,24G以内的GPU的显存都可以跑。这说明你只要一张RTX4090就可以享用了,根本不需要啥H20和A100。当然想跑满血版,大概需要 120GB 显存。
来看一下几个实测例子。这里使用了OpeanAI-o1, 满血 DeepSeek-R1 还有就是满血的 QwQ-32B。
先说结论,我用下来的感觉就是基本媲美别人家的满血模型还有闭源模型。
最重要的是你可以在本地部署,32B 参数量的效果都超 100+B 参数的模型了,还要啥自行车,大家用起来吧!
- 测试一下数学能力怎么样,比一下大小。
提示词:9.11和9.9哪个大?
结论:Qwen 和 DeepSeek 都做出来了正确答案还给出了相应解释。DQ 组合还温馨的提示了常见错误。但是曾号称地标最强模型的 o1,迅速地给出了错误答案。
- QwQ-32B:
- OpeanAI-o1:
- DeepSeek-R1:
- 看看语文能力怎么样。
提示词:用苏轼风格创作赞美量子力学的七言律诗(需符合平仄对仗)
这个问题上,o1有点幽默回答里还带上了英文了,哈哈哈。
- QwQ -32B:
- OpeanAI-o1:
- DeepSeek-R1:
- 最后,还是一个经典问题数 r
提示词:数strawberry有几个r?
在这个问题上三个模型都做出了正确的回答,但是我们的 DQ 组合还是温馨的给出了易错提示。值得注意的是除了 o1 用了几秒就回答出来了,Qwen 和 DeepSeek 花了好一会儿才回答出来。
- QwQ -32B:
- OpeanAI-o1:
- DeepSeek-R1:
Qwen 生态:全球 AI 开源最强家族!
阿里通义团队,不仅只涉足文本模型,还有视觉、语音、文生图、视频等等。他们一年开源200+ 款模型,覆盖全模态,全尺寸。
- 参数规模从 0.5B 到 110B,满足不同场景需求!
- 开源即霸榜,Hugging Face 最受欢迎开源模型!
Qwen的Hugging Face官网:
https://huggingface.co/Qwen
就连最近大火的 AI 智能体 Manus,创始人都在推特上爆料说,他们的核心模型之一也是用 Qwen 家的。
目前,国家超算互联网平台、广州人工智能公共算力中心、东南大学、天津大学、山东大学 等985/211 高校均已接入 QwQ-32B,壁仞科技、摩尔线程、硅基流动、CAMEL-AI、OpenReuter、SambaNova Cloud 等企业纷纷推出基于 QwQ-32B 的产品和 API 服务!
Qwen 衍生模型数量已经突破 10 万个,直接超越 Meta 旗下的 Llama,成为全球最大开源模型家族, 并且数量还在不断上升中。
中国开源模型全面崛起
虽然国产大模型起步较晚,最初在能力上有所差距,但我们始终奋力追赶。
如今,2025 年的LiveBench 榜单上,全球前十的模型中仅有两款开源模型,而它们全部来自中国——DeepSeek 和 Qwen,国产大模型正式站上世界之巅。
其实这也说明了一件事:开源可能才是是通向 AGI 的必经之路。
闭源模型确实强,但封闭生态始终有局限,只有开源模式才能吸收全球开发者的智慧,快速迭代,持续优化算法和模型性能。
像 QwQ-32B 这种 32B 级别的小模型都能吊打部分闭源巨头,足以从一定程度上说明:开源 AI在未来会越来越重要!
从更广泛的视角来看,开源生态或许是实现AGI的必经之路。因为AGI不仅仅意味着单一领域的突破,而是需要模型在跨学科、跨模态以及广泛场景下拥有高度的泛化能力。
这种复杂性与多样性,要求模型具持续的反馈循环和快速迭代,这正是开源模式天然的优势所在。
我们可以预见,未来AI通向AGI的道路上,开源生态将继续扮演着核心引擎的角色,推动全球技术的协作进步。
未来,随着 Qwen、DeepSeek 等国产开源模型的崛起,中国 AI 有望在全球形成更大的影响力,甚至彻底超越欧美闭源巨头!
最后……不得不说,真的挺喜欢千问团队起的名字QwQ。
最后的最后
感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
