Claude 3.7 于 2025 年 2 月发布,具备混合推理能力,能在快速和深度思考模式间切换。它特别擅长编码和软件工程任务,但与专家级程序员相比,仍有差距。例如,OpenAI 的研究显示,即使是顶尖 AI 模型(如 Claude 3.5 Sonnet),在现实世界任务中的完成率仅为 26.2%,远低于人类。
Claude 3.7 Sonnet
的核心优势在于其独特的双重模式。它既是一个普通的大型语言模型,也是一个强大的推理模型。用户可以根据需求选择模型是快速给出答案,还是经过深思熟虑后再作回应。在标准模式下,Claude 3.7 Sonnet
是 Claude 3.5 Sonnet
的升级版,表现更为出色;而在扩展思考模式下,它会先进行自我反思,从而在数学、物理、指令执行、编程等任务上展现出更强的性能。
另外 Claude
还同时发布了一个专门用于 AI 辅助编程的命令行工具 Claude Code
,这个后面我专门出一期来给大家介绍。
众所周知,正是因为 Claude 3.5 Sonnet
出色的编程能力,让诸如 Cursor、Windsurf 这样的编程工具大放异彩,而 Claude 3.7 Sonnet
的出现,应该能让 AI 编程领域的天花板更上一层了。
下面这张图是官方在 SWE-bench Verified
(一个用于评估 AI 模型解决实际软件开发问题能力的测试)上,和 Claude 3.5、OpenAI o1、DeepSeek R1 上的对比测试结果:
Claude 3.7 Sonnet
的编程能力断层式领先。
然而事实真如测试这样吗,我们还是得在实际编码场景来测试一下。
就在昨天 Windsurf
也及时发布了对 Claude 3.7 Sonnet
的适配支持:
打开编辑器更新后,果然能选择了:
这里我们注意,这次更新之后,Claude 3.7(Thingking)
的收费标准和 Claude 3.5
并不是一样的,而是贵了 1.5 倍,比 DeepSeek R1
的收费要贵了 3 倍,我们按最基础的 10💲 付费会员来算,原本每月能调用 500 次 Claude 3.5,现在只能调用 333 次 Claude 3.7(Thingking)
。
不过在后续的实际测试中,我发现这个收费也是值的,因为以前往往需要多轮对话完成的内容,现在调用一次 Claude 3.7(Thingking)
就可以完成。
测试标准
下面我会从四个角度来对 Claude 3.7 Sonnet
的编程能力进行测试:
- UI还原能力:我们让模型帮我们还原一个具备一定复杂度的后台系统,观测不同模型的还原程度,来对比结果。
- 项目理解能力:我们让模型在一个具备一定规模的项目下分析整个项目的架构和实现,并给出具体优化措施,观测优化措施的完善程度,来对比结果。
- 架构设计能力:我们让模型独立完成一个具备一定技术复杂度的全栈项目的设计和编写,观测项目搭建的完善程度,来对比结果。
- 物理规律理解:这个是模型编程能力必做的一项测试,很多模型在对物理规律相关的编程上都会存在问题。
UI 还原能力:还原复杂后台管理系统
首先我们来测试一下 UI 设计图的还原度,我在网上找到一个 UI 设计相对比较复杂的网站,让它来帮我们还原一下 UI ,原始网站截图:
为了更全面的测试模型的还原能力,我们使用两张设计稿。
提示词如下:
Claude 3.5 还原效果
首先,第一次的任务执行后网站报错,没有运行起来,经过额外两次调试后网站才运行起来
最终的还原效果:
整体的配色、布局和关键的元素是在的,但是功能差的就比较多了,而且路由不能点击,我输入给它的是两张图片,这里只实现了一个路由。想要达到比较高的还原效果,估计得进行多轮对话才行。
V0 的还原度
还原设计稿应该是 V0(v0.dev)目前的主打卖点,也是它的优势,我们再来对比一下 V0 的 UI 还原度(默认也是用的 Claude3.5):
比 Windsurf 的 Claude3.5 稍微好一点,但是明显距离真实的设计稿还是有差距的
Claude 3.7 还原效果
Claude 3.7 一次对话就成功的完成了任务,中间没有任何报错,而且在我没有给定额外图片资源的情况下,它自己通过 SVG 模拟了网站上的图标。
还原效果:
其他路由点击后也能访问:
虽然没能做到完全一比一还原,但是这个还原度已经非常不错了,而且中间过程没有报错,对比其他模型的还原度还是很高的。
项目理解能力:大型项目优化分析
下面我们来测试 Claude 3.5 、Claude 3.7
分别在一个大型项目的架构理解上的能力表现。
问题:理解当前项目架构,并告诉我本项目还有哪些需要改进的地方?(无需改动代码,先输出)
Claude 3.5 输出结果
Claude 3.7 输出结果
数据总结
以下表格总结了关键基准测试结果:
模型/人类 | SWE-bench Verified 解决率 | 备注 |
---|---|---|
Claude 3.7 Sonnet | 62.3% (使用脚手架) | 顶尖表现,需辅助工具 |
Claude 3.5 Sonnet | 26.2% (现实任务) | 落后于人类专家 |
人类专家 | 接近 100% (估计) | 需时间和资源,具创造力 |
混合推理引擎:
Claude 3.7 引入了混合推理引擎,允许用户在快速响应和深入思考之间进行选择。这种设计使模型能够根据任务需求,灵活调整推理深度,特别适用于复杂的编程问题。
Agentic 编码能力:
在 Agentic 编码方面,Claude 3.7 展现出卓越的能力。它不仅能理解项目需求,还能设计代码结构、编写代码、调试程序,甚至与其他工具协同工作,独立完成完整的项目。这使其在处理复杂代码库和高级工具使用等方面表现出色。
实际应用表现:
在实际应用中,Claude 3.7 被用于改进网页设计、开发游戏和执行大量编码任务,展现了其在软件工程任务中的高准确性。
综上所述,Claude 3.7 Sonnet 的发布标志着 AI 编程能力的又一次飞跃,进一步缩小了 AI 与人类专家程序员之间的差距。
结语
综上,Claude 3.7 在编程任务上表现优异,特别是在基准测试中,但尚未达到专家级程序员的水准。它的局限性在于处理复杂、现实世界的任务时缺乏人类那样的深度理解和适应性。未来,随着技术进步,AI 可能进一步缩小与人类专家的差距,但目前仍需人类监督。