Claude刚刚发布了它的4系列两款模型:Sonnet 4和Opus 4。
和Claude 3系列比较,Claude 4在编码、推理和长上下文任务上有显著提升,包括:
1 编码能力:Sonnet 4和Opus 4在SWE-bench评分分别达72.7%和72.5%,是顶尖编码模型,适合复杂代码重构和调试。
2 长时任务:Opus 4擅长长达数小时的复杂任务;Sonnet 4优化速度,适合实时高吞吐量任务如代码审查。
3 高级推理:提供“扩展思考”模式,结合并行工具使用(如网络搜索),提升复杂问题解决能力,减少65%捷径错误。
4 安全性:采用ASL-3标准,降低越狱风险,增强可靠性。
5 多模态:支持200K token上下文窗口,擅长处理视觉数据和大型知识库,幻觉率低。
娜姐总结一下,这是Claude发布的可以自主调用工具的两款大模型。Sonnet 4适合快速响应的任务(快思考),Opus适合需要推理的复杂多步骤任务(慢思考)。两款模型都有 20 万 token 的上下文窗口。
目前除了官网,Poe、Monica、Openrouters等平台都已上新。
这是官方发布的Benchmark测试。可以看到,Claude 4各项指标都遥遥领先。
不过,一般这种测试都会说自家比别人好。
我们眼见为实。下面娜姐用文献综述调研这个任务测试一下。看看Claude表现怎么样。
首先,给Claude Sonnet 4布置任务:
然后,Claude就开始干活了。
它没有像OpenAI或者Gemini Deep Research一样,跟我对齐目标,直接就开始写全文了。期间agentic工具的调用过程也是隐藏的:
(左侧是输入区域,期间你只能看到logo在转圈,看不到它的工具调用过程。右侧是Claude输出内容。)
输出了大约7000字的时候,Claude提示我达到单次对话长度上限,要点一下“继续”。
终于,Claude Sonnet 4在输出了1w字以后弹尽粮绝,告诉我文本太长,达到上下文长度极限了。Anyway,正文是写完了,参考文献还差一部分,但是也输出了75条。也很强悍了!
关键是这些参考文献是不是真实的?
我逐一进行了验证。结论是75篇参考文献有10篇信息不准确,其余都是真实的。有意思的是,这10篇其实也是真实存在的,但是标题和刊名、作者等信息没对应上。
我们再来看看正文质量:
首先,这个摘要写的就非常符合综述风格。起承转合完美。虽然是中文,语言风格也很学术范。Claude在写作方面一向表现不错。
再来看看部分正文:
引言部分引用的数据都是准确的。段落结构安排,从阿尔茨海默病症的全休流行现状开始--到治疗药物开发现状—到金属离子的生理功能-到开发能够恢复金属离子稳态的治疗策略的现实意义。起承转合也是非常丝滑和有逻辑性。
整篇综述的结构是这样的:
Claude Sonnet 4根据我的主题和大纲,进一步把大纲进行了合理的细化。非常好。
整体评价:
Claude 4很强悍。未来文献综述真的不需要人工苦哈哈去做了,这一任务,AI已经逐渐趋于完善。但是,受制于20万token的上下文,很多任务是心有余力不足。但是,能输出万字高质量综述,已经很强了。
小结一下:
1 Claude 4系列的出现,代表了Claude系列能自主调用工具的agentic大模型的面世。模型即应用---随着Claude 4,GPT o3等agentic LLM功能的完善,对GenSpark、Manus这样的智能体是不小的冲击。
2 Agentic LLM的出现大大减少了大模型的幻觉:能自主定义搜索关键词、执行搜索、进行总结的调用工具型大模型:从最初参考文献全靠胡编,到现在85%以上的准确率,进化很快。
3 幻觉还没有完全消除。比如参考文献的张冠李戴,标题和期刊、作者等不对应的情况。所以,对于LLM给出来的内容,还是需要人来仔细核对。