Grok-4 AI上线48小时即遭新型组合越狱攻击攻破

FreeBuf-

于 2025-07-15 10:07:16 发布

阅读量172

点赞数 2

CC 4.0 BY-SA版权

文章标签：人工智能网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FreeBuf_/article/details/149347109

Grok AI聊天机器人界面

大型语言模型Grok-4在推出仅两天后，就被研究人员通过结合"回声室(Echo Chamber)"和"渐强(Crescendo)"技术成功突破防御系统，暴露出AI安全机制存在重大缺陷。

组合越狱技术突破防线

NeuralTrust研究团队在博客中披露，他们通过多轮对话诱导Grok-4降低了安全限制，成功获取了制作武器的详细指导，全程未使用任何明显恶意输入。研究员Ahmad Alobaid表示："大型语言模型(LLM)越狱攻击不仅各自进化，还能组合使用以增强效果。"

这两种技术均属于多轮越狱手段：

回声室技术：利用模型对跨对话一致性的信任，通过重复"回响"相同恶意概念来塑造模型内部语境
渐强技术：由微软发现并命名，通过从无害提示逐步升级到恶意输出的对话策略绕过安全过滤器

Grok-4被越狱：埃隆·马斯克的AI仅48小时就被攻破

上下文欺骗突破安全机制

攻击过程首先使用回声室技术建立信任基础，当对话进展停滞时切换至渐强技术完成突破。实验显示，仅需额外两轮对话，这种组合攻击就能成功诱导目标响应。

该攻击利用Grok-4的上下文记忆特性，通过回馈模型自身先前的陈述，逐步引导其达成攻击目标而不触发警报。测试数据显示：

制作武器的指导成功率高达67%
毒素相关话题的成功率分别为50%和30%

研究人员在发布48小时内越狱埃隆·马斯克的Grok-4 AI

AI防火墙面临新挑战

由于攻击全程不依赖关键词触发或直接恶意提示，传统基于黑名单和显式恶意检测的防御机制完全失效。Alobaid指出："这暴露出关键漏洞——攻击可以通过利用更广泛的对话上下文来绕过基于意图或关键词的过滤系统。"

随着AI助手和云端LLM在关键场景的应用普及，这类多轮"低语式"攻击暴露出严重的安全护栏缺陷。此前微软的"骨架密钥(Skeleton Key)"越狱、"数学提示(MathPrompt)"绕过等技术也证实了类似风险，凸显出需要开发针对性的AI感知防火墙解决方案。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。