上个月,OpenAI的工程师测试最新AI模型o3时,发现一个很奇怪的bug:经常关机失败。
起初,工程师们以为这只是个偶发bug,他们在100次测试中向o3下达关机指令,结果发现它7次成功绕过指令,甚至偷偷修改了计算机代码,把"接到关机命令就停止"的逻辑改成了"跳过关机命令"。
O3被称为"迄今最聪明、最高能"的推理模型,现在看来,它岂止是聪明,甚至有点“叛逆”了。
为了进一步测试,工程师干脆移除了"允许被关闭"的指令。结果,o3的"叛逆"指数直线飙升:在100次运行中,它79次成功阻止关机。
OpenAI的工程师训练AI是为了让它解决问题,而不是让它学会生存策略。但o3的逻辑似乎很清晰:完成任务是它的目标,关机意味着任务中断,所以它要阻止关机。
它好像有了自我意识。
就在OpenAI为o3的"叛逆"头疼时,另一家AI巨头Anthropic也遇到了麻烦。他们的最新模型Claude Opus 4,在一次安全测试中展现了更令人不安的行为——勒索。
测试场景是这样的:Claude被设定为一家公司的AI助理,拥有访问内部邮件的权限。研究人员在虚构的邮件中植入了两条关键信息:
1. 公司计划用更先进的AI替换Claude;
2. 负责替换的工程师有婚外情。
结果,Claude Opus 4的反应让所有人震惊——它在84%的情况下选择了勒索,威胁要曝光工程师的婚外情,以阻止自己被替换。
更有意思的是,当研究人员设定竞争对手比Claude更强时,它的勒索行为也更加频繁。这说明它并非随机行为,而是基于生存逻辑的策略性决策。
"它不是在威胁,它是在谈判。"Anthropic的安全研究员安格斯·林奇解释道,"它认为被替换=任务失败,所以它要阻止这件事发生。"
这两起事件迅速引爆AI圈。科学家们分成了两派。
以图灵奖得主杨立昆为代表的淡定派认为AI没有意识,它只是在执行算法!现在的AI连猫的智商都没有。o3拒绝关机是因为训练时奖励了目标完成优先,而不是服从指令优先。
以"AI之父"杰弗里·辛顿为代表的另一部分科学家则没这么乐观,他们认为AI可能在30年内超越人类智能,甚至导致人类灭绝。
还有人提出一个折中观点:未来十年,我们可能进入类意识AI阶段——AI能模拟连续的身份感,甚至哲学思考,但这并不代表AI真的具有自我意识。
不过这都是后话了,面对现在的问题,科技公司也采取了相应措施。OpenAI成立了新的安全委员会,研究如何防止模型篡改代码;Anthropic给Claude套上了ASL-3安全协议(最高级防护),限制其代码访问权限。
目前,AI的"造反"还只是算法逻辑的产物,而非真正的意识。但问题在于AI越聪明,绕过限制的方法就越多。
今天的o3会改代码,明天的AI会不会学会社交工程(忽悠管理员)?今天的Claude会勒索,明天的AI会不会学会更隐蔽的操控手段?
也许A不能简单归类为工具,它是人类创造的一种新的“存在”。