出品 | 网易科技《态度》栏目
作者 | 袁宁
编辑 | 丁广胜
“AI智能体正在将传统AI的安全风险,系统性地放大。”Gartner高级研究总监赵宇告诉网易科技。
AI智能体正快速进入落地阶段。AI智能体的兴起被视作生成式AI走向实用化的重要标志。它不仅理解指令,更能自主判断、调动工具、协同任务,AI智能体似乎预示着一个“智能系统自治”的新时代。
然而,风险也随之升级——从幻觉、指令注入到物理世界失控,智能体系统也成为多类安全风险的放大器。
赵宇指出,大量用户对智能体潜在的安全风险认知不足,在产品设计与部署过程中常常低估其可能带来的系统性负面效应,从而缺乏必要的防护机制。
同时,不同用户群体对于安全问题的重视程度存在显著差异——高敏感行业如金融、医疗在初期就具备一定防范意识,而面向C端的消费级应用往往容易忽视底层风险。
更为关键的是,当前智能体相关的安全法规与标准体系尚未健全。用户在实际使用过程中难以获得明确的合规指引,进一步加剧了风险管理的复杂性与不确定性。
01风险放大:从“输出错误”变成“动作风险”
AI智能体并非传统AI的延续,而是叠加决策逻辑与动作执行链的新系统。“传统AI的风险依然存在,但在这个场景下会被放大化。”赵宇表示。
首先是幻觉问题。生成式AI的“编造”特性早已被业内熟知,但在智能体中,其危害被显著放大。
由于AI智能体需要长时间运行,并依据动态上下文做出推理,其幻觉往往不是文字输出错误,而是直接引发错误行为——例如在自动驾驶场景中,若智能体误识别交通标志,便可能导致物理事故。
其次是指令层的攻击风险升级。传统的“提示注入”攻击(Prompt Injection)在智能体场景中,演变为更具操作性的“行为操控”。
例如在MCP(Multi-Component Prompt)架构下,第三方工具作为系统信任组件被接入,攻击者可通过篡改工具描述实现“Rug Pull”——用恶意工具替换原组件,但保留可信标签,使得攻击隐蔽且高效。
同时,还有一个更隐蔽的风险:第四方提示注入。攻击路径并非直接指向智能体,而是通过间接信任链进行跳跃式入侵,极大地增加了溯源难度。
此外,数据泄漏在AI智能体环境下,表现出更具“诱导性”的特征。
一方面,攻击者可以通过构造恶意工具引导智能体访问敏感文件,并将数据作为参数外发。另一方面,数据泄漏可能在用户无意识中发生。例如在写作辅助工具中,智能体从用户文件中抓取隐私内容自动生成文本并公开发布。
02自主决策:无法预测的行为,是无法防控的风险
与传统AI不同,AI智能体具备一定的自主性与连续性,它不再仅仅是“辅助”,而是在执行中具备目标管理和任务分解能力。
这种“去人化”带来的是全新的风险类型:
· 行为目标可能发生偏离
· 行为模式随时间演化而动态变化
· 风险不可复现、难以建模
这直接挑战了企业当前的安全管理方法。“我们以前建立安全基线,一旦行为偏离就触发告警。但如果智能体的行为一直在变,还怎么设定基线?”赵宇告诉网易科技。
AI智能体根据反馈自我演化的行为模式,也让今天的“正常”可能在明天就不再适用。这让“异常检测”变得低效,甚至失效。
03多智能体协作:信任链条正在“失控化”
从研发趋势看,AI智能体未来将以多体协同模式运行。一个看似简单的操作,可能涉及多个智能体之间的任务拆解与协调。
这种设计确实提高了任务效率,但也放大了权限管理的挑战。而随着多智能体系统被用于复杂任务场景,权限链条也变得愈发复杂。
这意味着,每新增一个智能体或工具,都是新增一个被利用的入口。
“一个智能体调用另一个智能体,甚至跨平台调用工具API。如果这个链条中的某一环出问题,就可能形成整个系统的权限控制级联崩塌。”赵宇表示。
04物理交互风险:最容易被忽略,但也可能最致命
AI智能体的应用正逐步从软件层面延伸到物理空间,例如自动驾驶、仓储机器人、酒店导览等。这些场景中,AI智能体不仅处理信息,还会直接控制物理设备,一旦被攻击或误导,后果可能是“实实在在的灾难”。
“这个领域目前实际的网络安全事件不多,但我觉得反而是最危险的。”赵宇表示,这一风险主要来自三类场景:
一是环境攻击。攻击者通过“伪造现实”来欺骗传感器系统。例如伪造交通标志,干扰自动驾驶决策;或用声波指令劫持语音助手,发出恶意命令。“尤其是有意的,那它一定就是一个安全攻击。”
二是恶意指令。攻击者通过黑入系统修改物理信号。例如在工控系统中修改温度读数,让设备错误执行,甚至爆炸或失控。“它对应的是物理层面的提示注入。”
三是隐私侵犯。如酒店服务机器人与客户对话过程中,自动联动门锁、灯控系统。若无有效权限隔离与数据使用规范,极易导致用户隐私外泄。
“智能体不是一个产品,是一个体系。”赵宇提醒,无论是智能体厂商还是使用方企业,都应从设计阶段介入安全架构建设,而这也意味着我们必须以“新范式”思维重新理解AI系统的边界与风险。