Claude 3.7 代码水平已经达到了专家级程序员的水准

Claude 3.7 于 2025 年 2 月发布,具备混合推理能力,能在快速和深度思考模式间切换。它特别擅长编码和软件工程任务,但与专家级程序员相比,仍有差距。例如,OpenAI 的研究显示,即使是顶尖 AI 模型(如 Claude 3.5 Sonnet),在现实世界任务中的完成率仅为 26.2%,远低于人类。

Claude 3.7 Sonnet 的核心优势在于其独特的双重模式。它既是一个普通的大型语言模型,也是一个强大的推理模型。用户可以根据需求选择模型是快速给出答案,还是经过深思熟虑后再作回应。在标准模式下,Claude 3.7 SonnetClaude 3.5 Sonnet 的升级版,表现更为出色;而在扩展思考模式下,它会先进行自我反思,从而在数学、物理、指令执行、编程等任务上展现出更强的性能。

另外 Claude 还同时发布了一个专门用于 AI 辅助编程的命令行工具 Claude Code,这个后面我专门出一期来给大家介绍。

众所周知,正是因为 Claude 3.5 Sonnet 出色的编程能力,让诸如 Cursor、Windsurf 这样的编程工具大放异彩,而 Claude 3.7 Sonnet 的出现,应该能让 AI 编程领域的天花板更上一层了。

下面这张图是官方在 SWE-bench Verified(一个用于评估 AI 模型解决实际软件开发问题能力的测试)上,和 Claude 3.5、OpenAI o1、DeepSeek R1 上的对比测试结果:

Claude 3.7 Sonnet 的编程能力断层式领先。

然而事实真如测试这样吗,我们还是得在实际编码场景来测试一下。

就在昨天 Windsurf 也及时发布了对 Claude 3.7 Sonnet 的适配支持:

打开编辑器更新后,果然能选择了:

这里我们注意,这次更新之后,Claude 3.7(Thingking) 的收费标准和 Claude 3.5 并不是一样的,而是贵了 1.5 倍,比 DeepSeek R1 的收费要贵了 3 倍,我们按最基础的 10💲 付费会员来算,原本每月能调用 500 次 Claude 3.5,现在只能调用 333 次 Claude 3.7(Thingking)

不过在后续的实际测试中,我发现这个收费也是值的,因为以前往往需要多轮对话完成的内容,现在调用一次 Claude 3.7(Thingking) 就可以完成。

测试标准

下面我会从四个角度来对 Claude 3.7 Sonnet 的编程能力进行测试:

  • UI还原能力:我们让模型帮我们还原一个具备一定复杂度的后台系统,观测不同模型的还原程度,来对比结果。
  • 项目理解能力:我们让模型在一个具备一定规模的项目下分析整个项目的架构和实现,并给出具体优化措施,观测优化措施的完善程度,来对比结果。
  • 架构设计能力:我们让模型独立完成一个具备一定技术复杂度的全栈项目的设计和编写,观测项目搭建的完善程度,来对比结果。
  • 物理规律理解:这个是模型编程能力必做的一项测试,很多模型在对物理规律相关的编程上都会存在问题。

UI 还原能力:还原复杂后台管理系统

首先我们来测试一下 UI 设计图的还原度,我在网上找到一个 UI 设计相对比较复杂的网站,让它来帮我们还原一下 UI ,原始网站截图:

为了更全面的测试模型的还原能力,我们使用两张设计稿。

提示词如下:

Claude 3.5 还原效果

首先,第一次的任务执行后网站报错,没有运行起来,经过额外两次调试后网站才运行起来

最终的还原效果:

整体的配色、布局和关键的元素是在的,但是功能差的就比较多了,而且路由不能点击,我输入给它的是两张图片,这里只实现了一个路由。想要达到比较高的还原效果,估计得进行多轮对话才行。

V0 的还原度

还原设计稿应该是 V0(v0.dev)目前的主打卖点,也是它的优势,我们再来对比一下 V0 的 UI 还原度(默认也是用的 Claude3.5):

比 Windsurf 的 Claude3.5 稍微好一点,但是明显距离真实的设计稿还是有差距的

Claude 3.7 还原效果

Claude 3.7 一次对话就成功的完成了任务,中间没有任何报错,而且在我没有给定额外图片资源的情况下,它自己通过 SVG 模拟了网站上的图标。

还原效果:

其他路由点击后也能访问:

虽然没能做到完全一比一还原,但是这个还原度已经非常不错了,而且中间过程没有报错,对比其他模型的还原度还是很高的。

项目理解能力:大型项目优化分析

下面我们来测试 Claude 3.5 、Claude 3.7 分别在一个大型项目的架构理解上的能力表现。

问题:理解当前项目架构,并告诉我本项目还有哪些需要改进的地方?(无需改动代码,先输出)

Claude 3.5 输出结果

Claude 3.7 输出结果

数据总结

以下表格总结了关键基准测试结果:

模型/人类SWE-bench Verified 解决率备注
Claude 3.7 Sonnet62.3% (使用脚手架)顶尖表现,需辅助工具
Claude 3.5 Sonnet26.2% (现实任务)落后于人类专家
人类专家接近 100% (估计)需时间和资源,具创造力

混合推理引擎:

Claude 3.7 引入了混合推理引擎,允许用户在快速响应和深入思考之间进行选择。这种设计使模型能够根据任务需求,灵活调整推理深度,特别适用于复杂的编程问题。​

Agentic 编码能力:

在 Agentic 编码方面,Claude 3.7 展现出卓越的能力。它不仅能理解项目需求,还能设计代码结构、编写代码、调试程序,甚至与其他工具协同工作,独立完成完整的项目。这使其在处理复杂代码库和高级工具使用等方面表现出色。​

实际应用表现:

在实际应用中,Claude 3.7 被用于改进网页设计、开发游戏和执行大量编码任务,展现了其在软件工程任务中的高准确性。​

综上所述,Claude 3.7 Sonnet 的发布标志着 AI 编程能力的又一次飞跃,进一步缩小了 AI 与人类专家程序员之间的差距。

结语

综上,Claude 3.7 在编程任务上表现优异,特别是在基准测试中,但尚未达到专家级程序员的水准。它的局限性在于处理复杂、现实世界的任务时缺乏人类那样的深度理解和适应性。未来,随着技术进步,AI 可能进一步缩小与人类专家的差距,但目前仍需人类监督。

内容概要:本文详细比较了GPU、TPU专用AI芯片在大模型推理优化方面的性能、成本及适用场景。GPU以其强大的并行计算能力和高带宽显存,适用于多种类型的神经网络模型和计算任务,尤其适合快速原型开发和边缘计算设备。TPU专为机器学习设计,擅长处理大规模矩阵运算密集型任务,如Transformer模型的推理,具有高吞吐量和低延迟特性,适用于自然语言处理和大规模数据中心的推理任务。专用AI芯片通过高度定制化架构,针对特定神经网络模型进行优化,如卷积神经网络(CNN),在处理特定任务时表现出色,同时具备低功耗和高能效比的优势,适用于边缘计算设备。文章还介绍了各自的优化工具和框架,如CUDA、TensorRT、TPU编译器等,并从硬件成本、运营成本和开发成本三个角度进行了成本对比。 适合人群:从事人工智能、深度学习领域的研究人员和技术人员,尤其是对大模型推理优化感兴趣的读者。 使用场景及目标:①帮助读者理解GPU、TPU和专用AI芯片在大模型推理中的优缺点;②为选择适合的硬件平台提供参考依据,以实现最优的推理性能和成本效益;③介绍各种优化工具和框架,帮助开发者高效部署和优化模型。 其他说明:本文不仅涵盖了硬件架构特性,还深入探讨了优化技术和应用场景,旨在为读者提供全面的技术参考。在选择硬件平台时,需综合考虑具体任务需求、预算限制及开发资源等因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值