Claude 同时发布Sonnet/Opus 4系列新模型:实测科研写作能力飙升!

Claude刚刚发布了它的4系列两款模型:Sonnet 4和Opus 4。

和Claude 3系列比较,Claude 4在编码、推理和长上下文任务上有显著提升,包括:

1 编码能力:Sonnet 4和Opus 4在SWE-bench评分分别达72.7%和72.5%,是顶尖编码模型,适合复杂代码重构和调试。

2 长时任务:Opus 4擅长长达数小时的复杂任务;Sonnet 4优化速度,适合实时高吞吐量任务如代码审查。

3 高级推理:提供“扩展思考”模式,结合并行工具使用(如网络搜索),提升复杂问题解决能力,减少65%捷径错误。

4 安全性:采用ASL-3标准,降低越狱风险,增强可靠性。

5 多模态:支持200K token上下文窗口,擅长处理视觉数据和大型知识库,幻觉率低。

娜姐总结一下,这是Claude发布的可以自主调用工具的两款大模型。Sonnet 4适合快速响应的任务(快思考),Opus适合需要推理的复杂多步骤任务(慢思考)。两款模型都有 20 万 token 的上下文窗口。

目前除了官网,Poe、Monica、Openrouters等平台都已上新。

图片

这是官方发布的Benchmark测试。可以看到,Claude 4各项指标都遥遥领先。

不过,一般这种测试都会说自家比别人好。

我们眼见为实。下面娜姐用文献综述调研这个任务测试一下。看看Claude表现怎么样。

首先,给Claude Sonnet 4布置任务:

图片

然后,Claude就开始干活了。

它没有像OpenAI或者Gemini Deep Research一样,跟我对齐目标,直接就开始写全文了。期间agentic工具的调用过程也是隐藏的:

图片

(左侧是输入区域,期间你只能看到logo在转圈,看不到它的工具调用过程。右侧是Claude输出内容。)

输出了大约7000字的时候,Claude提示我达到单次对话长度上限,要点一下“继续”。

图片

终于,Claude Sonnet 4在输出了1w字以后弹尽粮绝,告诉我文本太长,达到上下文长度极限了。Anyway,正文是写完了,参考文献还差一部分,但是也输出了75条。也很强悍了!

图片

关键是这些参考文献是不是真实的?

我逐一进行了验证。结论是75篇参考文献有10篇信息不准确,其余都是真实的。有意思的是,这10篇其实也是真实存在的,但是标题和刊名、作者等信息没对应上。

我们再来看看正文质量:

图片

首先,这个摘要写的就非常符合综述风格。起承转合完美。虽然是中文,语言风格也很学术范。Claude在写作方面一向表现不错。

再来看看部分正文:

图片

引言部分引用的数据都是准确的。段落结构安排,从阿尔茨海默病症的全休流行现状开始--到治疗药物开发现状—到金属离子的生理功能-到开发能够恢复金属离子稳态的治疗策略的现实意义。起承转合也是非常丝滑和有逻辑性。

整篇综述的结构是这样的:

图片

Claude Sonnet 4根据我的主题和大纲,进一步把大纲进行了合理的细化。非常好。

整体评价:

Claude 4很强悍。未来文献综述真的不需要人工苦哈哈去做了,这一任务,AI已经逐渐趋于完善。但是,受制于20万token的上下文,很多任务是心有余力不足。但是,能输出万字高质量综述,已经很强了。

小结一下:

1 Claude 4系列的出现,代表了Claude系列能自主调用工具的agentic大模型的面世。模型即应用---随着Claude 4,GPT o3等agentic LLM功能的完善,对GenSpark、Manus这样的智能体是不小的冲击。

2 Agentic LLM的出现大大减少了大模型的幻觉:能自主定义搜索关键词、执行搜索、进行总结的调用工具型大模型:从最初参考文献全靠胡编,到现在85%以上的准确率,进化很快。

3 幻觉还没有完全消除。比如参考文献的张冠李戴,标题和期刊、作者等不对应的情况。所以,对于LLM给出来的内容,还是需要人来仔细核对。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值