一文吃透 AI 智能体（Agent）：从基础到核心，这篇干货总结不容错过

1、AI Agent的概念

AI Agent（智能体）是一种不需要持续人类干预的AI系统，可以基于环境和背景信息，自主分析各种问题，做出逻辑决策，并且在没有持续人类输入的情况下处理多种任务。

在这里插入图片描述

Perception（输入）： AI Agent通过文字输入、传感器、摄像头、麦克风等等，建立起对外部世界或环境的感知。
Brain（大脑）： 大脑是AI Agent最重要的部分，包括信息存储、记忆、知识库、规划决策系统。
Action（行动）： 基于Brain给出的决策进行下一步行动，主要包括对外
部工具的API 调用，或者对物理控制组件的信号输出。

2、AI Agent的构成

目前在大模型热潮的背景下，媒体上所讲的AI Agent，更严格意义上来说应该叫LLM Agent，因为整个Agent最重要的控制中枢Brain，其底层是LLM大模型。
请添加图片描述
AI Agent = 大语言模型+记忆+规划+工具使用

2.1、AI Agent - Planning

Planning是整个AI Agent中最核心最关键的部分，Agent会把大型任务分解为子任务，并规划执行任务的流程。同时Agent还会对任务执行的过程进行思考和反思，从而决定是继续执行任务，还是判断任务完结并终止运行。

子任务分解：

1、思维链（COT）推理

思维链是指一系列有逻辑关系的思考步骤，形成一个完整的思考过程。把推导过程写出来提供给大模型，大模型就可以做相对复杂的推理任务。
在这里插入图片描述

2、思维树TOT
是对思维链CoT的进一步扩展，在思维链的每一步，推理出多个分支，拓扑展开成一棵思维树。

在这里插入图片描述
3、COT-SC
一个CoT出现错误的概率比较大，我们可以让Agent进行发散，尝试通过多种思路来解决问题，然后投票选择出最佳答案

4、思维图GOT
思维树ToT 的方式也存在一些缺陷，对于需要分解后再整合的问题，比如排序问题，排序需要分解和排序，然后再merge，可以引入思维图GOT来解决
在这里插入图片描述
反思和完善：
1、ReAct
全称是Reasoning-Action，这种模式是让大模型先进行思考，思考完再进行行动，然后根据行动的结果再进行观察，再进行思考，这样一步一步循环下去。

2、Reflexion

是一个为 Agent 配备了动态记忆和自我反思能力的框架，能够提高 Agent 的推理能力。Reflexion 具有标准的强化学习机制，其奖励模型提供了一个简单的二进制奖励机制，执行空间则遵循 ReAct 中的设置
在这里插入图片描述

3、Basic Reflection

本质是利用左右互搏来实现协同进化。比如设计一个帮助用户完成市场调研报告的Agent系统，其中Generator负责输出，Reflector负责检查，通过两个角色之间不断的协同，来实现整个任务的反思和完善
在这里插入图片描述

2.2、AI Agent - Memory

感官记忆是对原始输入的嵌入表征的理解，包括文本、图像或其他模式，比如图片的纹理和风格。短时记忆即上下文学习，由于受到Transformer上下文窗口长度的限制，它是短暂的和有限的。长期记忆则可对应为外部的向量数据存储，Agent 可在查询时引用，并可通过快速检索进行访问。

在这里插入图片描述
感官记忆： 这是记忆的最早阶段，能够在原始刺激结束后保留对感官信息（视觉、听觉等）的印象，通常只能持续几秒钟。包括图标记忆、回声记忆和触觉记忆三种类型。

短期记忆： 短时记忆（STM）或工作记忆：指的是我们当前意识到的信息，或者在学习和推理等复杂认知任务中所需要的信息。

长期记忆： 长时记忆指的是能够存储很长时间，从几天到几十年不等的信息，它的存储容量基本上是无限的。长时记忆又包括显性记忆和隐性记忆

2.3、AI Agent - Tool

为AI Agent配备工具API，比如计算器、搜索工具、代码执行器、数据库查询等工具，AI Agent就可以和物理世界交互，来解决更加实际的问题。

1、TALM&Toolformer

TALM和ToolFormer都是对 LLM 进行微调，以学习使用外部工具API。该数据集根据新增的 API 调用注释是否能够提高模型输出的质量而进行扩展。

2、HuggingGPT
HuggingGPT是一个使用ChatGPT作为任务规划器的框架，ChatGPT 可根据模型的描述选择 HuggingFace 平台中可用的模型，并根据执行结果总结响应结果

3、API Bank
它包含 53 种常用的 API 工具、完整的工具增强的 LLM 工作流程。API 的选择相当多样化，包括搜索引擎、计算器、日历查询、智能家居控制、日程管理、健康数据管理、账户认证工作流程等

4、Function Calling
通过API调用LLM时，调用方可以描述函数，包括函数的功能描述、请求参数说明、响应参数说明，让LLM根据用户的输入，合适地选择调用哪个函数

3、AI Agent的分类

按工作模式分类：
在这里插入图片描述

单Agent：即通过单一的Agent来解决问题，不需要与其他Agent进行交互
多Agent：这种模式侧重于多个Agent之间的互动和信息共享，多个Agent协同工作，相互交流信息，共同完成更复杂的任务或目标
混合Agent：这种模式中，Agent系统和人类共同参与决策过程，交互合作完成任务，强调的是人机协作的重要性和互补性

按决策方式分类
在这里插入图片描述

简单反射型Agent：基于“如果-那么”规则直接响应当的环境状态，不存储任何历史数据或状态。
基于模型的反射型Agent：拥有环境的内部模型，能够基于对环境的理解和过去的经验做出更复杂的决策。
基于目标的Agent：这类Agent的决策方式，从根本上不同于前面描述的条件-动作规则，因为它涉及对未来的考虑。
基于效用的Agent：基于效用的Agent旨在最大化效用功能或价值，精心挑选具有最高预期效用的行动，以衡量结果的有利程度
学习型Agent：这些Agent设计用于在未知环境中运行，从自己的经历中学习，并随着时间的推移调整自己的行动。
基于逻辑的Agent：通常基于一系列逻辑规则，通过推理来解决问题，适合需要高度逻辑判断的场景

4、AI Agent的产生原因

从技术发展的局限性考虑：

LLM大模型出来之前

规则方法：把复杂的自然语言问题转化为规则符号，往往需要行业专家的介入，缺乏容错能力，一个小的错误就可能导致整个系统的失败

强化学习方法：构建策略网络或奖励模型，需要大量样本进行训练，但是收集数据往往成本很高，所以这种方法可行性不大，很难推广开来

LLM大模型出来之后

LLM大模型：LLM大语言模型在逻辑推理、工具应用、策略规划、指令遵循等方面都有非常不错的表现，工程师们
开始意识到，将大语言模型作为Agent应用的核心认知系统，可以极大的提高Agent的规划能力

从人与AI互动的角度考虑
在这里插入图片描述

Embedding模式：人类完成大多数工作，AI只是作为某些单点能力，嵌入在人类完成工作的某些节点
Copilot模式：AI作为人类的坚实助手，随时辅助人类的工作，比如Notion AI、微软Copilot
Agent模式：人类只是提出任务和目标，然后由AI自主完成大多数工作

5、AI Agent的优势和局限

优势：

以任务为导向：脱离了传统Chatbot闲聊的交互模式，自动进行后续的推理和行动，可以大幅提升工作效率。
自然的交互方式：由于AI Agent本身以LLM大语言模型为底座，固有的语言理解和语言生成能力，确保了自然无缝的用户交互。
进化的决策能力：虽然目前LLM大模型的决策能力还远远不如人类，但这项能力在持续不断的进化。
灵活的适应性：在RAG和Function Calling等技术的支撑下，AIAgent可以快速适应各种不同的行业和应用场景

局限：

可靠性不足：LLM大模型容易出现幻觉和不一致性，将多个步骤连起来会进一步加剧可靠性问题，从而难以获得用户信任，这会大大限制AI Agent在一些Critical场景下的应用。
法律问题：对于企业对外输出的AI Agent，企业可能要对其产生的错误负责。比如，最近一位客户因为被加拿大航空公司的聊天机器人误导而延误航班，最终由加拿大航空予以赔偿。
性能和成本：GPT-4、Gemini-1.5在推理和function calling的表现不错，但仍然较慢且成本高，特别是需要进行循环调用和自动重试时

6、AI Agent对企业和个人的意义

未来可能只有两种人，驱动AI Agent的人，和被AI Agent驱动的人

企业用户通常面临更加复杂的业务需求，有更明确的业务场景、业务逻辑以及更多行业数据和行业知识的积累，非常适配 Agent 自主性、决策与执行、工具使用等特点，这让企业端领域成为 Agent 施展能力的绝佳舞台。
AI Agent可以用工程化的思想对抗个体工作的不确定性，过往的SOP、PDCA、OKR等管理方法可以与AI Agent进行适配，完成管理工作的科学升级。
个人作为企业端的工作者，AI Agent对个人在工作效率上带来的提升，也是显而易见的。利用AI Agent武装自己，让工作和学习效率更上一级台阶。

7、AI Agent的主要应用类型

1. 企业知识助手
在企业应用中，通过“外挂”私有知识库来扩充大模型的知识储备，以提供基于自然语言的、对话式的企业私有知识访问
在这里插入图片描述

2. 数据分析助手
在企业应用中通过将自然语言转换成数据分析的语言或代码，比如对API的调用、对数据库的访问、甚至编写数据分析代码，来达到获取数据、分析数据与可视化结果的目的。
在这里插入图片描述

3. 应用/工具助手
把自然语言转换成对企业应用或者互联网开放API调用，比如财务分析、市场研究、信息检索等等
在这里插入图片描述
4. 自定义流程助手
由于企业知识、应用、业务需求的千差万别，以及大模型自身的不确定性，Agents项目要强调可控性的原因，来让AI按照人类确认过的工作流程来完成任务。

8、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】