昨天发了一篇文章提到了开源复刻 Manus 的项目:《一文看懂Manus:实测体验+开源复刻方案,无需等待邀请码》,有朋友推荐了另外一个23年已经发布的项目 OWL。
01
—
OWL通用智能体
OWL在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名第一!
照例先放上官方地址:
https://github.com/camel-ai/owl/
OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework 之上。
下面是官方的演示视频。
同昨天推荐的 OpenManus 一样,OWL实现的核心功能如下:
在线搜索:使用维基百科、谷歌搜索等,进行实时信息检索
多模态处理:支持互联网或本地视频、图片、语音处理
浏览器操作:借助Playwright框架开发浏览器模拟交互,支持页面滚动、点击、输入、下载、历史回退等功能
文件解析:word、excel、PDF、PowerPoint信息提取,内容转文本/Markdown
代码执行:编写python代码,并使用解释器运行
OWL 支持自定义工作流+离线环境运行。
项目中提供了一个脚本工具复现 GAIA 上的实验结果。找到 run_gaia_roleplaying.py 文件,并运行以下命令:
python run_gaia_roleplaying.py
02
—
OpenHands
官方地址:
https://github.com/All-Hands-AI/OpenHands
OpenHands(以前叫 OpenDevin),这是一个由 AI 驱动的软件开发智能体平台。
OpenHands 可以执行人类开发人员可以执行的操作:修改代码、运行命令、浏览网页、调用 API,甚至从 StackOverflow 复制代码片段。
官方演示图片和视频
还有贴心的中文文档:
https://docs.all-hands.dev/modules/usage/installation
OpenHands 的主要功能:
代码生成与修改:OpenHands 能够自动生成高质量的代码,帮助开发者快速完成项目核心部分,减少手动编写代码的时间。
任务自动化:平台可以像人类开发者一样执行命令、运行脚本,并通过网络完成复杂任务。
多语言支持:支持多种语言模型,如 GPT-4、Claude 和 Llama,用户可以通过 litellm 库进行配置。
多代理协作:支持多代理协作,将复杂任务分解为多个子任务由不同代理协同完成。
安全沙箱环境:提供安全的沙箱环境以确保代码执行的安全性。
Docker 部署:支持 Docker 容器化部署,用户可以通过简单的命令快速启动平台。
交互式 CLI 和无头模式:支持脚本化无头模式和交互式 CLI 模式,适用于自动化测试和后台任务处理。
社区驱动:平台遵循 MIT 许可证,鼓励社区贡献,包括代码开发、研究评估和反馈测试
OpenHands 的技术架构基于事件流架构,包含三个主要组件:
Agent 抽象:社区可以向 AgentHub 提交不同实现的 Agent 实现。
事件流:跟踪动作和观察的历史记录。
运行时:执行所有动作并将其转换为观察结果。
并且支持多种 AI 模型,如 DeepSeek R1,推荐使用这些模型获得最好的效果。
03
—
Browser-Use
除了上面两个强大的开源智能体框架,最后推荐一个单独的智能体项目 Browse-Use。
官方地址:https://github.com/browser-use/browser-use
该项目可结合 DeepSeek 模型,通过 AI Agent自动化操作浏览器。
例如获取财联社电报的前十条新闻资讯:
可以看到 Browser-Use 获取到了数据,并且自动转为了json格式,对于抓取数据相当友好。
再进行一些后续扩展,可以实现很多场景下的需求。
04
—
Flowith
最后隆重介绍的是具有同样功能的Flowith,不需要邀请码。
官方地址:
https://flowith.net/invitation?code=8YM46Z
(朋友们可以使用我的邀请码)
核心功能与特点
基于画布和节点的界面:提供了一个直观的画布界面,用户可以通过拖放功能节点来构建复杂的工作流。这种节点式交互方式超越了传统的线性对话工具,可以更灵活地管理和组织任务。(类似工作流)
多线程交互:支持多线程对话和任务管理,用户可以同时与多个 AI 模型互动,从而提高工作效率。
知识库功能:用户可以上传本地文件并建立个性化知识库,用于存储和检索相关信息。这一功能特别适合需要处理大量数据或复杂分析的场景。
支持多种 AI 模型:Flowith 支持 GPT-4、DeepSeek V3 等主流 AI 模型,用户可以根据任务需求选择合适的模型进行交互。
模块化设计:用户可以自由组合不同的功能节点,例如文本生成、数据分析、内容创作等,形成高度个性化的自动化工作流程。
往期热门文章推荐:
DeepSeek开源第三天,只用300行代码就超越了英伟达自己。
DeepSeek 开源周第二天:DeepEP 亮相,MoE 模型效率革命来袭!