刚刚！Claude 4发布，最强AI编程新王，连续编码7小时，开发者惊掉下巴！

最新推荐文章于 2025-06-09 10:44:05 发布

转载最新推荐文章于 2025-06-09 10:44:05 发布

· 23 阅读

·

0

·

版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzMTczODU2Mg==&mid=2247492996&idx=1&sn=620de676d55ef532ad22b11f4ccc6277&chksm=e905ef416c5439cc742c4dd66a130935bc2092c42c5a75bcd4eef8d3c980ac4c6e7ae9cf5de0&scene=126&sessionid=0

文章标签：

转自新智元，编辑：Aeneas 好困

Anthropic，刚刚扔出了真正的核武器——全球最强编程模型Claude 4！能连续编码7小时不断的Opus 4，再一次让大模型能力实现了重大飞跃。网友实测后惊呼：不可能，从未见过一个AI做到这样的事！

今天的聚光灯，属于Anthropic。

就在刚刚，全网翘首盼望的Claude 4，重磅登场！

CEO Dario Amodei亲自上阵，携Claude Opus 4和 Claude Sonnet 4亮相，再次将编码、高级推理和AI智能体，推向全新的标准。

其中，Claude Opus 4是全球顶尖的编码模型，擅长复杂、长时间运行的任务，在AI智能体工作流方面性能极为出色。

而Claude Sonnet 4，则是对Sonnet 3.7 的重大升级，编码和推理能力都更出色，还能更精准地响应指令。

同时，Claude把这段时间积攒的一系列产品，通通一口气发布了——

Claude Opus 4和Sonnet 4混合模型的两种模式：几乎即时的响应和用于更深度推理的扩展思考。
扩展思考与工具使用（测试版）：两款模型均可在扩展思考过程中使用工具（例如网络搜索），使Claude能在推理与工具使用间灵活切换，从而优化响应质量。
新的模型能力：两款模型均可并行使用工具，更精确地遵循指令，并且（当开发者授予其访问本地文件的权限时）展现出显著增强的记忆能力，能提取、保存关键信息，以保持连续性，并随时间积累隐性知识。
Claude Code：可通过GitHub Actions支持后台任务，并与VS Code和JetBrains进行了原生集成，可直接在文件中显示编辑内容，实现无缝结对编程。
新的API能力：Anthropic API新增四项新功能，让开发者能够构建更强大的AI智能体——代码执行工具、MCP连接器、文件API，以及长达一小时的提示词缓存能力。

所以，什么人能用上这次的新模型？

目前，订阅了Pro、Max、Team和Enterprise版的Claude用户，可以立即体验到这两款模型及扩展思考功能。其中，Sonnet 4还将向免费用户开放。

开发者则可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI调用。

而Claude 4的定价，也与此前保持一致：

Opus 4每百万Token为15美元（输入）/75美元（输出）
Sonnet 4每百万Token为3美元（输入）/15美元（输出）

Claude 4：AI编程新王登基

Claude Opus 4号称是Anthropic迄今为止最强大的模型，也是全球最顶尖的编码模型。

在SWE-bench和Terminal-bench测试中，分别以72.5%和43.2%的得分全面领先，碾压OpenAI刚刚发布的编程智能体Codex-1和最强推理模型o3。

即使在需要高度专注并执行数千步骤的长时间运行任务中，它都能展现出持续稳定的性能，连续工作数小时。

可以说，Opus 4的推出极大扩展了AI智能体的能力边界。众多前沿的AI智能体产品，都将获得强大支持。

· Cursor：Opus 4的编码能力已达业界顶尖水平，在理解复杂代码库方面，还取得了飞跃性进展。

· Replit：在处理跨多个文件的复杂变更时，Opus 4的精度大大提升，表现出显著进步。

· Block：在「goose」智能体中，Opus 4是首款能在编辑和调试过程中提升代码质量，同时还能保持完整性能和可靠性的模型。

· Rakuten：Opus 4通过了一项要求严苛的开源代码重构任务，这项任务独立运行长达7小时，期间它始终保持了稳定的性能。

· Cognition：Opus 4擅长解决其他模型难以应对的复杂挑战，能够成功处理先前模型未能完成的关键操作。

而在Sonnet 3.7已经算业界领先的能力基础上，Claude Sonnet 4又再度实现了显著提升。

它在编码上极其出色，在SWE-bench测试中，直接取得72.7%的顶尖成绩！

而且，Sonnet 4在内部及外部应用场景中，均实现了性能与效率的良好平衡，可操控性也大大增加了。

尽管在多数领域，Sonnet 4的表现并不及Opus 4，但它在能力与实用性之间却达到了最佳平衡。

Anthropic：引爆推理革命

这就意味着，2025年的推理模型大战，Anthropic正式下场！

2025年，AI行业的一个明显趋势，就是转向推理模型。这类AI在做出反应之前会系统地解决问题，模拟类人的思维过程，而非简单地根据训练数据进行模式匹配。

去年12月，OpenAI抛出o系列，正式拉开大战序幕；谷歌的Gemini 2.5 Pro，也紧随其后推出实验性的“深度思考”功能；然后，就是DeepSeek-R1凭卓越性能和超高性价比，强势占领市场份额。

显然，现在人们使用AI的方式已经发生了根本性变革。

Poe的《2025年春季AI模型使用趋势报告》显示，推理模型的使用量在短短四个月内增长了五倍，占所有AI交互的比例从2%增长到10%。用户也越来越多地将AI视为解决复杂问题的思维伙伴，而非简单的问答系统。

随着新模型带来的用户兴趣的提升，推理类信息的比例在2025年初大幅上升

而这次，Anthropic再次给推理大战贡献了颠覆性的形式——将工具使用直接融入推理过程。

比起以前先收集信息再进行分析的系统，这种同步研究与推理的方法，显然更贴近人类认知。

Claude Opus 4和Claude Sonnet 4这种在推理过程中暂停、查找数据并融入新发现的能力，就创造了更自然、更有效的体验。

模型改进：不偷懒，记性好

此外，Anthropic还显著减少了模型在完成任务时试图走捷径或利用漏洞的行为。

在某类AI智能体任务上，模型特别容易走捷径，但这次的两款新模型发生此类行为的概率，比Sonnet 3.7要低65%。

在记忆能力上，Claude Opus 4也显著优于所有先前的模型。

当开发者构建的应用授予Claude本地文件访问权限时，Opus 4便能熟练地创建和维护用于存储关键信息的「记忆文件」，从而提高自己在AI智能体任务中的长期任务感知能力、连贯性和整体性能。

一个突出表现就是，Opus 4在玩《宝可梦》时，能创建并使用「导航指南」！

而团队为Claude 4模型引入的思考摘要功能，会利用一个较小的模型来精简冗长的思考过程。

不过需要注意，这项功能仅在约5%的情况下才需要启用——因为大多数思考过程本身就足够简短，能够完整呈现了。

网友实测：简直疯狂

手快的网友们，已经开始实测了。

比如用Claude 4制作一个CRM仪表板，只需30秒，速度直接让人瞳孔地震。

连续7小时编程，意味着AI大模型能力发展史上的一次分水岭。

仅用一个提示，仅仅一次，Claude 4 Opus就能完成一个可运行的浏览器智能体，包括API和前端。

大佬惊呼：不可能，我从未见过这样的事！

另一位获得提前内测资格的用户，体感是：Claude 4写作和编辑能力一流，编码能力和Gemini 2.5一样好。

比如，它一次性就构建了一个俄罗斯方块游戏。

沃顿商学院教授Ethan Mollick则用Claude 4 Opus制作了一段令人印象极深的视频，提示词为「用p5.js创建小说《皮拉内西》的三维世界」。

Claude Code

Claude Code，也正式发布了。

由此，Claude的强大功能就融入更多开发工作流程中——无论是在终端、用户所偏好的IDE中，还是通过Claude Code SDK在后台运行。

针对VS Code和JetBrains的全新测试版扩展程序，可将Claude Code直接集成到我们的IDE中。

甚至，Claude还会以内联方式，直接在文件中显示出编辑建议，这样就能在我们熟悉的编辑器界面中简化审查和跟踪流程。在IDE终端中运行Claude Code，即可安装。

并且，团队还发布了一款可扩展的Claude Code SDK，因此开发者可以使用与Claude Code相同的核心AI智能体来构建自己的AI智能体和应用程序。

下面就是一个SDK功能的示例：Claude Code on GitHub，目前仍处于测试阶段。

可以看到，在PR（拉取请求）中标记Claude Code，它就能响应审查者反馈、修复CI错误或修改代码。

在Claude Code内运行/install-github-app，就可直接安装了。

总的来说，Claude 4是向虚拟协作者迈出的一大步——能够保持完整的上下文理解，在较长项目中持续专注，从而推动变革性的影响。

此外，两款模型也都经过了广泛的测试和评估，最大限度地降低了风险并提高安全性，包括实施了更高级别的AI安全措施（如ASL-3）。

参考资料：

https://www.anthropic.com/news/claude-4

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。