前文
本次推荐
AI Agent 十问十答,降低认知摩擦
Agent,中文翻译为代理,顾名思义,代替用户在代理权限内去处理相关事宜。
AI Agent 是指在普通代理的基础上,具备对任务的理解、环境的感知、信息的获取能力,并通过推理能力,自主进行决策和执行。
AI Agent 就是 LLM + 客户端(Chatbot、AI IDE 等)组成的产品,代替我们去自主的完成下达的任务,这里的客户端具备规划、工具使用,甚至记忆的功能,目的都是为了更准确的执行任务
和传统自动化软件(也可根据任务要求,自动对任务进行拆解,并完成目标)的区别
需要决策:根据代码上下文灵活理解意图、自主定位错误、自主规划修复步骤,如代码场景。传统自动化软件只能按规则跑流程,遇到异常或不确定性时无法自主推理和修正。
需要连续推理与多步计划:自动完成有逻辑连贯性的复杂任务,例如撰写长篇技术报告场景。传统自动化软件最多能模板化填充内容,无法根据目标动态规划章节结构、铺设推理链条、前后自洽。
需要跨系统自主整合数据:在多个ERP、CRM、财务系统之间自动生成综合运营报告。传统 RPA(机器人流程自动化)只能定向拉取数据,无法理解数据之间的隐含关联或异常。
需要处理模糊、不完整输入:用户只给出一句含糊需求(如“帮我优化一下销售流程”),系统理解后完成多步落地执行,传统自动化软件需要结构化清晰指令,无法理解模糊自然语言并自主澄清、细化、规划。
需要自主学习和演化:持续优化任务,进行自我纠错。传统自动化工具需要人为设定优化规则,无法根据实际结果自我改进。
Agent和Chatbot的区别是什么
能力边界是 Chatbot 与 AI Agent 的本质差异。Chatbot 向 AI Agent 演进,是技术驱动和市场需求的必然。
技术驱动要素包括:LLM基模(推理-CoT思考)、Tool Use成熟、记忆和根据反馈调整的自主性、规划推理
需求驱动要素包括:自动化/效率的提升期望;商业化模式(Chatbot难以收费,Agent 拓展出 SaaS、B2B 集成、专属 Agent 市场),行业竞争(基模和垂直领域都在陆续开发)
Agent构成:
模型(Model):Agent 的“大脑”,是基座、是引擎。
环境反馈(Context):定义了模型执行任务时,要用到的信息的总和,包括通过 Tool 拿到的信息、用户输入的信息等等。
工具(Tool):Agent 的“手脚”;
AI Agent 的工作原理可以从感知、认知&推理&决策、行动、反馈和学习。
感知:物理世界/数字世界;
决策:信息识别与分析,作出明智的决策(借助 RAG、联网搜索、外部应用和系统调用),是 AI Agent 行为的核心,直接决定了后续行动的有效性;复杂任务的决策并不是一个结果,而是需要经历和环境感知、认知和推理之间反复交互的过程
行动:
反馈学习:每次任务后,学习和记忆;
如何提升Agent输出效果
41% 的受访者(LangChain 的调研)认为性能质量是构建可靠智能体系统的最大限制。性能质量表现不佳常因模型不够好或传递了错误(或不完整)的上下文,后者更加常见
模型类型和质量:不同厂家,不同类型系列、不同时间版本性能都是差异性的,实际落地会有AI网关管理多模型
工具:
实现方式是 MCP 和 Function Call,Function Call 是最早提出的,MCP 是在此基础之上做了协议的标准化,
OpenAI的Operator 的形式 (截屏,以视觉方式读取浏览器的页面信息)来和外部页面进行交互,未成主流(客户端实现成本高,视觉算法导致的出错率不可控,服务端没有参与感)
工具使用的难点:信息对齐(模型调用MCP的调试过程)+协议开销大;前者:MCP Marketplace、多MCP时,MCP Registry 批量管理,AutoMCP,让模型通过反复试验来学习工具的使用方法,而不只是通过提示工程来优化工具的调用效果;
指令:无论是用户提示,还是开发者训练大模型的提示,常见的改善结果策略有:利用现有文档、分解任务、定义明确的行动、考虑边缘情况;
指令也正在内化为大模型的能力,通过对话引导的方式来帮助用户将自己的任务描述的更加清楚
Workflow、Agent、Agentic 的联系和区别:Workflow由人定义的自动化流程编排,确定性高,泛化差,反之LLM定义的流程编排,确定性地,泛化好;Agent名词,某某是否是代理,Agentic是智能程度;LLM定义的流程编排比Workflow Agentic程度更高;
实际落地,Workflow和LLM会混合进行流程编排;LLM 赋能 Workflow:在工作流的各个任务环节中,嵌入大模型能力;Workflow 驱动 LLM 交互:以工作流的流程逻辑来引导大模型的交互过程。比如在智能客服工作流中,当用户咨询问题时,工作流先对问题进行初步分类,然后根据分类结果调用大模型进行针对性回答;
workflow和LLM的选择(图中Agents改为LLM),自由度和可预见性,门槛高不高,上限高不高(任务简单复杂?)
Single - Agent System(单智能体系统):指在一个系统中仅存在单个智能体,该智能体独立完成任务,其决策和行动仅基于自身的感知、知识与能力,不与其他智能体协作或交互。Multi - Agent System(多智能体系统):由多个智能体组成,这些智能体相互协作、交互,共同完成复杂任务。各智能体具有自主性,可独立做出决策,但通过信息共享、协作等方式实现共同目标。
多智能体系统,理论上可以为经理模式(中心化)和去中心化模式。经理” 代理负责将任务分配给合适的专业代理,并整合最终结果,提供统一的用户体验,适用于希望由一个代理掌控工作流程并与用户交互的场景。
去中心化模式中,多个代理地位平等,可相互移交任务执行权。当一个代理调用移交函数,新代理立即开始执行并接收最新对话状态。
为什么多智能体重要
技术上需求:复杂度管理,灵活扩展、资源成本优化和并行处理,容错性可靠性
我的思考
- Agent虽然有时候,被翻译成智能体,但是代理更为准确;
- Agent和传统软件自动化的区别,可以从Agent的操作的生命周期来看差异性
- 感知:输入泛化
- 推理决策:反馈动态规划,异常处理,多步迭代推理
- 行动:跨系统获取数据的基础上,理解数据
- 反馈学习:自主性,持续纠错进化
- Agent交互设计,屏蔽技术,哪些信息呈现给用户,营造用户信任感;
- LLM和Workflow:LLM按照传统软件的方式作为一个workflow的节点嵌入;
- 多智能体中心化vs非中心化,可能会混合,如果完全中心化,中心化的智能体可以面向用户,脱敏用户隐私信息,但是信息转化给被调用Agent可能会存在“传话”信息误差;非中心化方案,接管Agent的交互信息,可能无法share给,具体还是看应用场景,比如,手机的Apple ID登陆/siri待为请求互联网AI服务(屏蔽用户信息),手机的银行APP就是APP接管逻辑;