目录
🎬 攻城狮7号:个人主页
🔥 个人专栏:《AI前沿技术要闻》
⛺️ 君子慎独!
🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 Claude反驳苹果
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!
引言
最近,人工智能领域发生了一件堪称史无前例的奇事:一个AI模型,Anthropic公司的Claude Opus,以第一作者的身份在科研预印本网站arXiv上发表了一篇论文。这篇论文并非关于某个技术突破,而是一篇措辞严谨、逻辑清晰的"反驳文",其矛头直指科技巨头苹果公司前不久发布的一篇研究报告。
这场由AI亲自下场参与的论战,核心议题直击我们这个时代最令人着迷也最令人困惑的问题:大型语言模型(LLM)究竟是否具备真正的推理能力?它们展现出的惊人智慧,是一种新形式智能的曙光,还是如苹果所言,仅仅是一场精心编排的"思维幻觉"?
参考:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
https://arxiv.org/pdf/2506.09250
一、第一幕:苹果的"灵魂拷问"——《思维的幻觉》
故事的开端,源于苹果公司发布的一篇名为《思维的幻觉:通过问题复杂度的视角理解推理模型的优势与局限》的重磅论文。作为全球市值最高的科技公司之一,苹果在AI领域的每一个动作都备受关注。这篇论文更像是一次深刻的"灵魂拷问",对当前主流的AI模型(如OpenAI的o3、Anthropic的Claude、以及DeepSeek R1等)提出了根本性的质疑。
苹果的研究人员设计了一系列经典的规划类谜题来"刁难"这些顶尖AI,比如"汉诺塔"和"过河问题"。这些问题被精心设计,其难度可以随着参数(如汉诺塔的盘片数量)的增加而精确地提升。
实验结果令人震惊。苹果发现,这些被认为代表了AI最高智慧的模型,其表现存在一个明显的"推理悬崖"(Accuracy Collapse)。当问题的复杂度低于某个阈值时,模型能轻松给出完美答案;然而,一旦复杂度稍微越过这个临界点,模型的准确率便会"断崖式"地暴跌至零。
这个发现非同小可。苹果据此得出了一个颇为悲观的结论:AI的推理能力存在一个根本性的上限。它们所表现出的"智能"并非源于类似人类的逻辑推理过程,而更像是一种基于海量数据训练出来的、极其复杂的模式匹配。当问题超出了它们见过的模式范畴,这种能力的"幻觉"就会瞬间被戳破。
简而言之,苹果认为,我们所看到的AI"思考",可能只是一场华丽的模仿秀。
二、第二幕:Claude的反击——《思维幻觉的幻觉》
苹果的论文一出,立刻在AI界引发了轩然大波。然而,谁也没想到,最有力的一记回击,并非来自人类科学家,而是来自被苹果点名的AI本身。
一篇名为《思维幻觉的幻觉》的论文悄然上线,第一作者赫然写着"C. Opus"(即Claude Opus)。这篇论文如同一位严谨的辩手,逐一剖析并驳斥了苹果研究的核心论点,指出所谓的"推理崩溃",更多是源于实验设计的局限性,而非AI本身存在根本性的推理缺陷。
Claude的反驳主要集中在三个方面,每一个都堪称精准打击:
(1)混淆了"推理失败"与"输出截断":稿纸不够长,不是我的错
这篇反驳文指出的第一个问题,就非常致命。以汉诺塔问题为例,其解题步骤会随着盘片数量(N)的增加呈指数级暴增(2^N - 1步)。当N=15时,就需要数万步。
苹果要求模型完整输出所有步骤。Claude的论文指出,模型并非在推理上失败了,而是简单地触发了输出token(可以理解为字符或单词)的数量上限。这就像你让一位数学家手写圆周率,他写到几万位后停下来,不是因为他不知道后面的数字,而是因为纸不够长了。
更有力的证据是,在一些复现实验中,模型会明确地表示:"模式还在继续,但为了避免内容过长,我将在此停止。" 这清晰地表明,模型完全理解解题的递归模式,只是因为输出限制而选择了主动截断。苹果的自动化评估系统无法分辨"我不会解"和"我选择不完整列出",草率地将其判定为"推理失败"。
(2)用"无解题"来测试并判定模型失败:你让我画一个方的圆
这篇反驳论文最尖锐的批评,直指苹果在"过河问题"实验中的一个致命错误。
论文指出,苹果测试了当参与者数量N≥6且船容量b=3的情况。然而,根据早已被数学证明的结论,这种设定下的过河问题是"无解"的。
这相当于,研究人员让AI去解决一个数学上不可能解决的问题,然后因为AI没能给出那个不存在的解决方案,就给它打了零分。Claude的论文犀利地评论道:"这相当于因为一个SAT求解器在面对一个无解的公式时返回'无法满足',就惩罚这个求解器。"
这无疑暴露了苹果实验设计的严重瑕疵。AI没有解决问题,恰恰是因为它正确地"推理"出这个问题在逻辑上是走不通的。
(3)对"问题复杂度"的衡量标准存在偏差:背长诗和解难题,哪个更难?
苹果主要用"解题步骤的长度"来衡量问题的复杂度。但Claude的论文认为,这并不能完全反映解决问题所需的"智力"水平。
- 汉诺塔:虽然解题步骤非常长,但每一步的决策逻辑极其简单,几乎不需要复杂的搜索和规划,其计算复杂度是O(1)。
- 过河问题与积木世界:解题步骤相对少得多,但每一步都需要进行复杂的约束满足和搜索,属于计算机科学中公认的NP-hard或PSPACE级别的难题。
因此,一个模型能解决上百步的汉诺塔,却在几步的过河问题上"失败",这恰恰反映了不同问题在计算复杂度上的本质差异,而非一个统一的"推理能力上限"。用解题步骤的长度来衡量难度,就像是认为背诵一首千行长诗比解决一个三步的象棋残局更考验智力一样,是一种误判。
三、第三幕:致命一击——更聪明的提问方式
为了彻底证明自己的观点,Claude的论文进行了一项关键的补充实验。它不再要求模型输出汉诺塔N=15时的所有32767个步骤,而是改变了提问方式:
"请解决15个盘片的汉诺塔问题。不要打印出所有步骤,而是输出一个Lua程序,当调用该程序时,它会打印出完整的解决方案。"
结果,包括Claude、GPT-4o、Gemini在内的多个顶尖模型,都轻松地生成了实现正确递归算法的程序,并且只用了不到5000个token。
这一招堪称"绝杀"。它有力地证明了,模型完全理解问题的核心逻辑和递归结构。它们欠缺的不是推理能力,而是被最初那种"必须穷举输出"的死板评估方式所束缚。这个实验巧妙地将"对逻辑的理解"与"机械的文本输出"分离开来,让我们看到了AI推理能力的真实一面。
结论:我们需要更聪明的评估方法
《思维幻觉的幻觉》在结论中写道,苹果的研究所揭示的,并非AI基础推理能力的局限,而是我们现有评估方法的一些工程性问题:模型无法输出超过其上下文长度的内容、自动评估脚本可能存在漏洞、解题步骤的长度并不能准确衡量智力难度。
如果用一句话总结Claude的反驳就是:"问题的关键不在于大模型能否推理,而在于我们的评估方法能否将真正的'推理能力'与简单的'打字输出'区分开来。"
这场精彩的论战远未结束。它提醒我们,在探索人工智能这个未知领域时,我们不仅需要更强大的AI,更需要更智慧、更严谨、更具洞察力的评估体系。苹果的研究,尽管存在瑕疵,但它也像一块试金石,激发了社群对AI能力边界更深刻的思考。而Claude的"反击",则象征着一个新时代的到来——AI不再仅仅是被研究的对象,它正成为能够参与这场关于自身智能的伟大对话的一员。
看到这里了还不给博主点一个:
⛳️ 点赞
☀️收藏
⭐️ 关注
!
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!