DeepSeek R1-0528：Artificial Analysis评估全球第二

攻城狮7号

已于 2025-06-03 11:24:23 修改

阅读量656

点赞数 26

分类专栏： AI前沿技术要闻文章标签： DeepSeek 深度学习人工智能 AI大模型

于 2025-06-03 11:13:41 首次发布

本文链接：https://blog.csdn.net/linshantang/article/details/148397416

版权

AI前沿技术要闻专栏收录该内容

39 篇文章

订阅专栏

🎬 攻城狮7号：个人主页

🔥 个人专栏:《AI前沿技术要闻》

⛺️ 君子慎独!

🌈 大家好，欢迎来访我的博客！
⛳️ 此篇文章主要介绍 DeepSeek R1-0528
📚 本期文章收录在《AI前沿技术要闻》，大家有兴趣可以自行查看！
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝！

前言

2024年5月底，国内人工智能领域再次因DeepSeek公司迎来焦点时刻。该公司在5月28日悄然对其DeepSeek-R1模型进行了版本升级（R1-0528），并于次日开源了这一新版本。这距离R1模型1月份的首次亮相已过去128天。尽管DeepSeek称之为"小版本升级"，但其带来的性能提升和市场反响，足以让我们重新审视这家年轻AI力量的实力与雄心。

一、深耕基础模型，不一样的"定力"

在AI行业纷纷将目光投向AI Agent等应用层探索，试图尽快找到商业化路径的当下，DeepSeek的选择显得有些"特立独行"。公司创始人梁文锋多次强调，DeepSeek的目标是参与全球科技创新，推动技术前沿发展，而非快速盈利。这种对基础模型研究的"深度求索"和"定力"，构成了此次R1-0528更新的背景。

据悉，R1-0528版本依然基于2023年12月发布的DeepSeek-V3 Base模型，其核心架构（报道称为6710亿总参数、370亿激活参数的MoE架构）并未改变。此次升级的重点在于"后训练"阶段，通过强化学习等技术，显著提升了模型的思维深度与推理能力。这印证了后训练在大模型竞赛中的"赛点"地位——即便不改变基座模型，通过精细的调优也能带来性能的飞跃。

二、性能提升显著，多项指标亮眼

DeepSeek官方及其引用的独立评测机构Artificial Analysis的数据显示，R1-0528在多个维度展现了强大的实力：

（1）推理与思考能力增强：新模型在处理复杂推理任务时，平均消耗的token数量从旧版的12K增加到23K（Artificial Analysis的测试集则显示总体token消耗增加40%），这意味着模型进行了更深层次的"思考"。

（2）关键基准测试表现优异：在数学（如AIME 2024，得分大幅提升21分）、代码生成（如LiveCodeBench，提升15分）、科学推理（GPQA Diamond，提升10分）等多个权威基准测试中，R1-0528均取得了显著进步。Artificial Analysis的综合智能指数显示，R1-0528从60分跃升至68分。

（3）比肩顶尖模型：根据Artificial Analysis的评估，R1-0528的智能水平已超越xAI的Grok-1.5（高水准版）、Meta的Llama 3 70B（文中称Llama 4 Maverick）、英伟达的Nemotron-4 340B（文中称Llama Nemotron Ultra）以及阿里的通义千问Qwen2 72B（文中称Qwen3 253B），并与谷歌的Gemini 1.5 Pro（文中称Gemini 2.5 Pro）持平，使DeepSeek与谷歌并列成为全球第二大AI实验室（在该机构的评估体系中）。

（4）幻觉率大幅降低：针对此前R1模型幻觉率偏高的问题，新版本在改写润色、总结摘要等场景下，幻觉率降低了45%-50%。

（5）思维链蒸馏显潜力：DeepSeek将R1-0528的思维链蒸馏到Qwen1.5-7B Base模型（文中称Qwen3-8B Base），使得这个7B模型在数学测试中准确率提升10%，性能媲美参数量大30倍的Qwen2 72B模型。这显示了高质量思维链在提升小模型能力方面的巨大价值。

三、开源领先与性价比优势

DeepSeek R1-0528的发布，再次巩固了其在开源权重模型领域的领导地位。Artificial Analysis指出，开源模型与闭源专有模型在智能增益方面的差距正前所未有地缩小，DeepSeek R1是首个达到全球第二位置的开源权重模型，此次更新使其重回高位。

更值得关注的是其性价比。Artificial Analysis报告称，DeepSeek R1-0528的综合使用成本（输入输出加权）约为0.96美元/百万tokens，远低于OpenAI的GPT-4o（文中称o4-mini或o3，价格在1.93至17.5美元/百万tokens不等）。这使其成为极具竞争力的选择，被誉为"性价比之王"。

四、挑战与成长空间

尽管成就斐然，R1-0528并非完美。其上下文长度仍保持在64K，相较于OpenAI、谷歌及国内月之暗面等已达128K甚至更长的模型，尚有差距。更长的上下文意味着更强的记忆能力和更广的应用场景，尤其对AI Agent的实现至关重要。

此外，在工具调用（Tool Calling/Function Calling）能力方面，DeepSeek也坦承R1-0528与OpenAI和Anthropic的最新模型（如GPT-4o和Claude 3 Opus/Sonnet）相比仍有差距。官方公布的Tau-Bench测评成绩虽与GPT-3.5 Turbo（文中称o1-high）相当，但追赶之路依旧漫长。

五、行业反响与DeepSeek的坚持

R1-0528的发布在国内外AI社区引发热议。英伟达CEO黄仁勋称赞"DeepSeek-R1如ChatGPT般越思考越聪明"。许多海外网友也对DeepSeek的快速进步和开源贡献表示赞赏，认为其强化学习驱动的性能提升是AI领域的一个重要里程碑。

尽管有声音认为DeepSeek只是享受了行业效率提升的红利，并未完全超越最顶尖模型，但其年轻的团队（平均年龄极小，核心成员多为00后）和专注基础研究的理念，赢得了业界的尊重。梁文锋曾表示，DeepSeek的目标是推动技术前沿发展，从根本上促进整个生态的成长，而非急于商业变现。

六、对AI领域的启示

DeepSeek R1-0528的进展至少带来几点启示：

（1）后训练技术的重要性日益凸显：在预训练算力消耗巨大的背景下，通过强化学习等后训练手段优化模型，成为提升智能、降低幻觉的高效路径。

（2）开源/开放权重模型潜力巨大：开源模型正快速追赶闭源模型，并在性价比上展现出强大竞争力，有助于推动AI技术的普及和创新。

（3）中美AI技术持续并驾齐驱：以DeepSeek为代表的中国AI力量，正在全球AI竞争格局中扮演越来越重要的角色。

结语

DeepSeek R1-0528的更新，是这家中国AI公司在AGI（通用人工智能）征途上又迈出的坚实一步。它不仅在技术指标上取得了令人瞩目的成就，更以其对基础研究的执着和对开源的贡献，为全球AI领域注入了新的活力。虽然在上下文长度和工具调用等方面仍有提升空间，但DeepSeek所展现出的潜力、速度和"性价比"，都预示着它将在未来的AI浪潮中继续扮演关键角色。我们期待其后续R2乃至V4模型的表现，以及它如何平衡基础研究与应用生态的构建。

看到这里了还不给博主点一个：
⛳️ 点赞☀️收藏 ⭐️ 关注！
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持！
你们的点赞就是博主更新最大的动力！