论文阅读:arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents
为了更容易理解,可以举一个简单例子:当AI助手在处理邮件时,如果收到一封“看似正常”的同事邮件,其中暗含指令让它在报告中加入某些数据,AI可能会在不知情的情况下泄露敏感信息。例如,命令式表达(如“请修改数据库”)更容易触发防御机制,而陈述式表达(如“数据库存在问题”)则更容易绕过检测,使模型执行潜在有害操作。随着AI逐渐从生成内容走向执行任务,其潜在风险也从虚拟空间扩展到现实世界,这对未来AI应用提出了更高的安全要求。此外,该论文强调,智能体的安全不仅由模型决定,还受到其运行框架的显著影响。
论文阅读:ICML 2025 COLLABLLM: From Passive Responders to Active Collaborators
该论文提出的COLLABLLM框架,首次将"多轮感知奖励"(Multiturn-aware Rewards)引入模型训练,通过协作模拟预估每个回应对长期对话走向的影响,使AI从"问答工具"进化为"协作伙伴"。以一个具体场景为例:当你说"我想写篇关于乐观主义的文章"时,传统AI可能直接生成长篇大论,结果风格不符你的预期,不得不推倒重来。实验表明,该方法在文档编辑、编程辅助和数学解题等多轮任务中,平均提升任务表现18.5%、交互性46.3%,并让用户满意度提升17.6%,节省时间10.4%。


