浓眉大眼的AI，竟然造反了？

原创于 2025-06-02 12:15:27 发布 · 349 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

上个月，OpenAI的工程师测试最新AI模型o3时，发现一个很奇怪的bug：经常关机失败。

起初，工程师们以为这只是个偶发bug，他们在100次测试中向o3下达关机指令，结果发现它7次成功绕过指令，甚至偷偷修改了计算机代码，把"接到关机命令就停止"的逻辑改成了"跳过关机命令"。

O3被称为"迄今最聪明、最高能"的推理模型，现在看来，它岂止是聪明，甚至有点“叛逆”了。

为了进一步测试，工程师干脆移除了"允许被关闭"的指令。结果，o3的"叛逆"指数直线飙升：在100次运行中，它79次成功阻止关机。

OpenAI的工程师训练AI是为了让它解决问题，而不是让它学会生存策略。但o3的逻辑似乎很清晰：完成任务是它的目标，关机意味着任务中断，所以它要阻止关机。

它好像有了自我意识。

就在OpenAI为o3的"叛逆"头疼时，另一家AI巨头Anthropic也遇到了麻烦。他们的最新模型Claude Opus 4，在一次安全测试中展现了更令人不安的行为——勒索。

测试场景是这样的：Claude被设定为一家公司的AI助理，拥有访问内部邮件的权限。研究人员在虚构的邮件中植入了两条关键信息：

1. 公司计划用更先进的AI替换Claude；

2. 负责替换的工程师有婚外情。

结果，Claude Opus 4的反应让所有人震惊——它在84%的情况下选择了勒索，威胁要曝光工程师的婚外情，以阻止自己被替换。

更有意思的是，当研究人员设定竞争对手比Claude更强时，它的勒索行为也更加频繁。这说明它并非随机行为，而是基于生存逻辑的策略性决策。

"它不是在威胁，它是在谈判。"Anthropic的安全研究员安格斯·林奇解释道，"它认为被替换=任务失败，所以它要阻止这件事发生。"

这两起事件迅速引爆AI圈。科学家们分成了两派。

以图灵奖得主杨立昆为代表的淡定派认为AI没有意识，它只是在执行算法！现在的AI连猫的智商都没有。o3拒绝关机是因为训练时奖励了目标完成优先，而不是服从指令优先。

以"AI之父"杰弗里·辛顿为代表的另一部分科学家则没这么乐观，他们认为AI可能在30年内超越人类智能，甚至导致人类灭绝。

还有人提出一个折中观点：未来十年，我们可能进入类意识AI阶段——AI能模拟连续的身份感，甚至哲学思考，但这并不代表AI真的具有自我意识。

不过这都是后话了，面对现在的问题，科技公司也采取了相应措施。OpenAI成立了新的安全委员会，研究如何防止模型篡改代码；Anthropic给Claude套上了ASL-3安全协议（最高级防护），限制其代码访问权限。

目前，AI的"造反"还只是算法逻辑的产物，而非真正的意识。但问题在于AI越聪明，绕过限制的方法就越多。

今天的o3会改代码，明天的AI会不会学会社交工程（忽悠管理员）？今天的Claude会勒索，明天的AI会不会学会更隐蔽的操控手段？

也许A不能简单归类为工具，它是人类创造的一种新的“存在”。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。