目录
🎬 攻城狮7号:个人主页
🔥 个人专栏:《AI前沿技术要闻》
⛺️ 君子慎独!
🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 苹果炮轰人工智能
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!
前言
2025年,当全世界都在为大语言模型日益增强的"推理"能力欢呼时,苹果公司,这个在大模型竞赛中略显沉默的巨头,突然投下了一颗"重磅炸弹"。他们发布了一篇名为《思维的幻觉》的研究论文,矛头直指当前所有顶尖的推理模型,包括 DeepSeek、Claude 3.7 以及 OpenAI 的 GPT-4o 系列。
这篇论文的结论堪称颠覆性的,甚至有些"刺耳":当前这些所谓的"推理模型",根本没有在进行真正的逻辑推理。我们所看到的"思考",很可能只是一种精心模仿的幻觉。
此言一出,AI 圈瞬间炸开了锅。有人认为这是苹果"吃不到葡萄说葡萄酸",为自己的落后找借口;也有人认为,这是一针清醒剂,揭示了我们对 AI 能力的普遍误解。那么,苹果究竟发现了什么?他们是对的吗?
论文地址:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
参考链接:
[1] https://x.com/wolfejosh/status/1931182279755178074
[2] https://www.bloomberg.com/news/features/2025-05-18/how-apple-intelligence-and-siri-ai-went-so-wrong
一、苹果的质疑:我们真的能"考"出 AI 的智商吗?
苹果团队首先指出了当前 AI 评测方法的一大"陷阱"。
目前,我们判断一个模型是否聪明,主要看它在各种标准化"考试"中的分数,比如数学竞赛题(MATH、AIME)和编程挑战。但苹果认为,这种方式存在两个致命缺陷:
(1)数据污染 (Data Contamination):这些考试的题目和答案,很可能早就大量存在于模型的训练数据里了。模型可能只是"背下了题库",而不是真正"学会了怎么解题"。论文用一个很有力的证据佐证了这一点:很多模型在新发布的 AIME 25 数据集上的表现,竟然不如在更早的 AIME 24 上的表现好。这和人类恰恰相反(人会越学越好),强烈暗示了模型可能只是记住了老题。
(2)无法洞察思考过程:即便模型给出了正确答案,我们也不知道它是怎么想出来的。是逻辑严谨、一步步推导的,还是瞎猫碰上死耗子,碰巧蒙对的?最终的分数,无法告诉我们其"思维链"的质量。
为了摆脱这些陷阱,苹果设计了一个更"纯净"、更可控的实验场,试图用一把"手术刀",来解剖 AI 的"大脑"。
二、苹果的"照妖镜":用四个经典谜题测试 AI
苹果的研究人员选择了四个经典的逻辑谜题,它们都有一个共同的特点:逻辑结构稳定,但复杂度可以被精确地控制。 就像一个可以调节难度的游戏,研究人员能一点点增加难度,观察模型在哪个节点上会"卡住"。
这四个谜题分别是:
(1)汉诺塔:测试递归思维和长远规划能力。
(2)跳棋交换:测试序列规划能力。
(3)过河问题:测试在满足复杂约束条件下的规划能力。
(4)积木世界:测试状态管理和规划能力。
实验的关键在于,他们不只看最终答案对不对,而是通过模拟器,去分析模型在 `<think>` 标签内生成的每一步"思考轨迹",验证其每一步操作是否合规、是否在兜圈子。这就像老师批改数学题,不仅看最终答案,还要看详细的解题步骤。
三、颠覆性的发现:AI 的"思考"是如何崩溃的
通过对 Claude、DeepSeek 等一系列顶尖模型的详尽测试,苹果得到了几个令人震惊的发现:
3.1 发现一:"思考"并非总是更好
在对比"思考模型"(如 DeepSeek-R1)和其对应的"非思考"标准版(如 DeepSeek-V3)时,研究人员发现了三个截然不同的性能区间:
(1)低难度区:对于简单问题,标准模型反而更准确、更高效。思考模型的"深度思考"显得多余且浪费。
(2)中等难度区:随着问题变难,思考模型生成长思维链的优势开始体现,性能超越标准模型。
(3)高难度区:当问题复杂度超过一个临界点,两种模型双双"崩溃",准确率断崖式下跌至零。
这表明,所谓的"思考"机制,只是帮你解决了一些中等难度的问题,它并不能从根本上提升模型的能力上限。
3.2 发现二:反直觉的"努力退化"
这是整篇论文最核心、最令人困惑的发现。研究显示,当问题变得越来越难,接近模型的"崩溃点"时,模型用于思考的计算量(即生成的思考 Token 数量)非但没有因问题变难而增加,反而开始显著减少!
这就像一个学生面对一道极难的数学题,他非但没有绞尽脑汁去尝试,反而在草稿纸上写了几笔就直接"躺平"放弃了。
这个现象揭示了,模型的失败并非因为计算资源不够(Token 限制还没到),而是其内部架构似乎存在一个根本性的"缩放限制"。当模型"预感到"问题过于困难无法解决时,它会主动"放弃思考"。
3.3 发现三:"抄作业"都不会
为了进一步验证模型的瓶颈,研究人员做了一个堪称"杀手级"的实验。
在汉诺塔任务中,他们在提示(Prompt)里,直接把完美的、一步不错的解题算法"喂"给了模型,要求模型别再自己想了,仅仅是"照着算法抄作业"就行。
结果令人大跌眼镜:模型的表现没有任何改善,依然在相同的复杂度点上崩溃。
这个结果极具说服力。它表明,模型的瓶颈不仅在于"规划"和"寻找"解决方案,更在于它连最基础的、符号化的逻辑步骤执行与验证能力都极其脆弱。 它甚至无法可靠地扮演一台"计算机"的角色。
3.4 发现四:严重"偏科",能力极不均衡
研究还发现,Claude 3.7 模型能正确解决需要上百步才能完成的汉诺塔问题,但在一个仅需11步的过河问题上却早早失败。
这强烈暗示,模型的所谓"推理能力",很可能严重依赖于训练数据中的常见模式(汉诺塔是教科书和网络上的经典问题,资料极多),而非一种通用的、可泛化的逻辑能力。它只是对它"熟悉"的模式表现得很好。
四、争议与反思:苹果说得对吗?
苹果的这篇"暴论"论文,自然也引来了大量的质疑和批评。
(1)实验设计有漏洞?很多批评者指出,模型之所以在高难度下"放弃思考",可能是因为它们预测到完整的答案会超出 Token 输出长度限制,所以干脆提前停止,这是一种合理的"节能"行为,而非能力崩溃。
(2)"酸葡萄"心理?不少人认为,苹果自己在大模型上进展缓慢,现在反过来否定整个行业的前进方向,有"酸葡萄"之嫌。
(3)人类就能做到吗?更有网友玩梗道:"在证明 AI 只是模式匹配机器之前,我们得先证明人类的推理不是更高级的模式匹配。"
这些批评不无道理。苹果的实验设计确实可能存在一些可以商榷的地方。但是,我们不能因此就全盘否定这篇论文的价值。
它用一种严谨、可控的方式,向整个 AI 社区提出了一个至关重要的问题:我们现有的评估体系,是否正在制造一种"能力幻觉",让我们高估了 AI 的真实水平?
总结:一盆冷水,但或许是良药
综合来看,苹果的这项研究,更像是一剂及时的"清醒剂"。
它告诉我们,当前这些看似无所不能的"推理"模型,其核心很可能依然是一种极其复杂的、基于海量数据的模式匹配。它们在熟悉的模式内表现惊人,但一旦遇到真正需要从第一性原理出发、进行严密逻辑推演的复杂问题时,其能力的脆弱性就会暴露无遗。
这并不意味着大模型没有用,恰恰相反,它们在绝大多数场景下都极其有用。但这篇论文提醒我们,不能将"模式匹配"的成功,轻易地等同于"通用推理能力"的实现。
未来,AI 的发展亟待一场评估范式的革新。我们必须超越那些可能被"污染"的基准测试,设计出更多像苹果这样的"压力测试",去深入探索 AI 的能力边界和失败模式,才能真正推动 AI 从"模仿思考"走向"真正思考"。
看到这里了还不给博主点一个:
⛳️ 点赞
☀️收藏
⭐️ 关注
!
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!