Claude 同时发布Sonnet/Opus 4系列新模型：实测科研写作能力飙升！

最新推荐文章于 2025-06-02 09:23:58 发布

原创最新推荐文章于 2025-06-02 09:23:58 发布

· 1.2k 阅读

·

13

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #论文笔记 #prompt #论文阅读

Claude刚刚发布了它的4系列两款模型：Sonnet 4和Opus 4。

和Claude 3系列比较，Claude 4在编码、推理和长上下文任务上有显著提升，包括：

1 编码能力：Sonnet 4和Opus 4在SWE-bench评分分别达72.7%和72.5%，是顶尖编码模型，适合复杂代码重构和调试。

2 长时任务：Opus 4擅长长达数小时的复杂任务；Sonnet 4优化速度，适合实时高吞吐量任务如代码审查。

3 高级推理：提供“扩展思考”模式，结合并行工具使用（如网络搜索），提升复杂问题解决能力，减少65%捷径错误。

4 安全性：采用ASL-3标准，降低越狱风险，增强可靠性。

5 多模态：支持200K token上下文窗口，擅长处理视觉数据和大型知识库，幻觉率低。

娜姐总结一下，这是Claude发布的可以自主调用工具的两款大模型。Sonnet 4适合快速响应的任务（快思考），Opus适合需要推理的复杂多步骤任务（慢思考）。两款模型都有 20 万 token 的上下文窗口。

目前除了官网，Poe、Monica、Openrouters等平台都已上新。

这是官方发布的Benchmark测试。可以看到，Claude 4各项指标都遥遥领先。

不过，一般这种测试都会说自家比别人好。

我们眼见为实。下面娜姐用文献综述调研这个任务测试一下。看看Claude表现怎么样。

首先，给Claude Sonnet 4布置任务：

然后，Claude就开始干活了。

它没有像OpenAI或者Gemini Deep Research一样，跟我对齐目标，直接就开始写全文了。期间agentic工具的调用过程也是隐藏的：

（左侧是输入区域，期间你只能看到logo在转圈，看不到它的工具调用过程。右侧是Claude输出内容。）

输出了大约7000字的时候，Claude提示我达到单次对话长度上限，要点一下“继续”。

终于，Claude Sonnet 4在输出了1w字以后弹尽粮绝，告诉我文本太长，达到上下文长度极限了。Anyway，正文是写完了，参考文献还差一部分，但是也输出了75条。也很强悍了！

关键是这些参考文献是不是真实的？

我逐一进行了验证。结论是75篇参考文献有10篇信息不准确，其余都是真实的。有意思的是，这10篇其实也是真实存在的，但是标题和刊名、作者等信息没对应上。

我们再来看看正文质量：

首先，这个摘要写的就非常符合综述风格。起承转合完美。虽然是中文，语言风格也很学术范。Claude在写作方面一向表现不错。

再来看看部分正文：

引言部分引用的数据都是准确的。段落结构安排，从阿尔茨海默病症的全休流行现状开始--到治疗药物开发现状—到金属离子的生理功能-到开发能够恢复金属离子稳态的治疗策略的现实意义。起承转合也是非常丝滑和有逻辑性。

整篇综述的结构是这样的：

Claude Sonnet 4根据我的主题和大纲，进一步把大纲进行了合理的细化。非常好。

整体评价：

Claude 4很强悍。未来文献综述真的不需要人工苦哈哈去做了，这一任务，AI已经逐渐趋于完善。但是，受制于20万token的上下文，很多任务是心有余力不足。但是，能输出万字高质量综述，已经很强了。

小结一下：

1 Claude 4系列的出现，代表了Claude系列能自主调用工具的agentic大模型的面世。模型即应用---随着Claude 4，GPT o3等agentic LLM功能的完善，对GenSpark、Manus这样的智能体是不小的冲击。

2 Agentic LLM的出现大大减少了大模型的幻觉：能自主定义搜索关键词、执行搜索、进行总结的调用工具型大模型：从最初参考文献全靠胡编，到现在85%以上的准确率，进化很快。

3 幻觉还没有完全消除。比如参考文献的张冠李戴，标题和期刊、作者等不对应的情况。所以，对于LLM给出来的内容，还是需要人来仔细核对。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。