一.Agent是什么?
agent的定义:在人工智能领域,Agent指能够感知环境并做出自主决策以实现目标的软件或系统。它可以是简单的自动化工具,也可以是复杂的智能系统。比较出名的有Manus、Gemini-CLI、Magentic-ui、Suna等智能助手。
接下来我会逐步解析并尝试复刻这些项目的小部分功能,从简单到复杂一步步学会构建Agent。
二.Cot Prompt VS Agent。
现在被广泛应用的大多是基于Cot Prompt(思维引导)模式的工具。这种模式主要用于引导思维或启发思考,例如单纯的大模型问答助手,它只能提供想法和思路,而不能直接去执行具体的操作。
而 Agent(智能代理) 则不同。Agent是一个智能助手,简单来说,它不仅可以提供想法,还能将想法落地并且自动执行。例如,它可以完成诸如安排日程、发送邮件、查询信息等任务。
三.Agent必将出现。
无论是漫威中的“贾克斯”,还是其他科幻作品里的智能机器人,都是人类对Agent的想象与渴望,随着大模型技术发展,Agent也开始变得实用起来,比如智能助手帮忙发送邮件;个人觉得,Agent 的发展是大势所趋。尽管像 Manus 这样的先行产品存在诸多争议,有人觉得它功能有限不过是个 “玩具”,但从它激活码被炒到高价的热度就能看出市场对 Agent 的高度关注,并且从谷歌等大厂不断推出新的agent可见仍是趋势,只是受限于当前技术水平,Agent 在很多具体业务场景下还无法做到尽善尽美,但这只是暂时的。
关于Agent的介绍了解即可,更重要的还是接下来的代码复现部分。
后续文章
从零开始构建Agent(二):Gemini-fullstack-langgraph-quickstart项目,一个很经典的Reflection模型
从零开始构建Agent(三):手搓一个基于langgraph的agent,简略版“Manus”,实现分析文档等小部分功能
待更中。。。