在生成式AI领域,智能体应用(agentic applications)已成为2025年的核心焦点。这些自主智能体能够规划、推理和行动,借助工具、API和知识库完成复杂任务。从工具与智能体的互操作协议到编排框架,创新浪潮正不断推动智能体能力向前发展。然而,有一项看似简单的升级却能立即提升任何智能体的性能——那就是智能体记忆(Agent Memory)。
智能体记忆的演进:从聊天历史到持久化存储
早期开发者往往将智能体记忆简单等同于聊天历史记录,只是将对话内容追加到LLM的上下文窗口中,与用户当前查询及RAG检索的内容混合使用。这种做法在初期有效,但很快暴露出根本性缺陷:LLM的上下文窗口是有限的,随着聊天记录增长,知识库中相关检索内容会被挤出上下文,导致智能体无法基于准确信息回答问题。
为解决这一问题,更智能的记忆策略应运而生:
- 对话摘要法
:将之前的消息压缩成符合token限制的摘要,但这会丢失细节,如同用“今天过得不错”概括一天的经历,却省略了具体美好瞬间。
- 最近n tokens缓冲法
:仅保留对话中最近的n个tokens,这会丢失全局上下文。例如用户提及晚餐吃了什么,LLM可能忘记晚餐前做了什么。
尽管聊天历史及其管理策略至今仍被广泛使用并发挥一定作用,但它们未能解决一个根本问题:聊天历史受限于会话周期。在一个对话线程中告诉ChatGPT重要信息,切换到下一个线程后就会丢失,用户不得不手动复制粘贴上下文,即便如此,因历史记录缺失可能导致回答不同。这种“会话失忆”现象严重制约了智能体的用户体验和任务处理能力。
长时记忆的突破:从概念到架构革新
用户虽很少明确抱怨记忆问题,但持久化记忆带来的用户体验提升是直接且显著的。LlamaIndex是最早引入“向量记忆”抽象概念的框架之一,其核心在于强调向量记忆不同于聊天历史,而是作为智能体的长时记忆存在。本质上,向量记忆采用了RAG(检索增强生成)架构:需要向量存储,智能体在响应时可从中检索信息。
这一创新使智能体能够结合三类信息进行推理:
- 短时记忆(聊天历史)
:记录当前会话的交互内容
- 工具(API