字节大厂开源agent-UI-TARS Desktop

最新推荐文章于 2025-05-21 17:07:51 发布

奋斗中的小猩猩

最新推荐文章于 2025-05-21 17:07:51 发布

阅读量2.5k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： AI探索文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43437663/article/details/146501169

AI探索专栏收录该内容

16 篇文章

订阅专栏

以下是关于 UI-TARS Desktop 的功能介绍与详细使用教程，结合了官方文档与用户实践指南：

一、功能概览

UI-TARS Desktop 是字节跳动开源的基于视觉语言模型（VLM）的桌面端 AI 代理工具，支持通过自然语言指令控制电脑操作，实现跨平台 GUI 自动化交互。其核心功能包括：

自然语言控制
- 用户可直接输入指令（如“发送一条包含‘Hello World’的推文”或“查看旧金山天气”），模型会自动解析并执行对应的操作（如打开浏览器、点击按钮、输入内容等）。
- 支持多语言指令，中文和英文均可适配。
多模态感知与交互
- 结合视觉识别技术，实时分析屏幕截图中的界面元素（如按钮、输入框），并通过坐标定位精准操作（点击、输入、滚动等）。
- 支持跨平台操作，覆盖 Windows、macOS、移动端及网页环境，提供标准化的行动定义（如 click、type、scroll）。
自动化任务执行
- 可处理复杂多步任务（如自动填写表单、跨应用导航），支持任务分解、错误纠正和实时反馈。
- 具备短期记忆（保存当前任务上下文）和长期记忆（记录历史交互）功能，提升连续任务执行效率。
高性能与扩展性
- 提供 2B、7B、72B 三种模型规模，推荐使用 7B-DPO 或 72B-DPO 模型以获得最佳性能。
- 支持云端部署（HuggingFace Inference Endpoints）和本地部署（vLLM/Ollama），开发者可通过 API 集成自定义工作流。

二、安装与配置教程

1. 下载与安装

下载地址
从 GitHub 仓库下载最新版本：UI-TARS-desktop Releases 。
- macOS：拖拽 .app 文件至 Applications 文件夹，若提示“损坏”，运行以下命令修复：
```
sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
```
- Windows：直接运行安装程序。
权限配置（macOS）
需在系统设置中启用权限：
- 辅助功能：系统设置 → 隐私与安全 → 辅助功能，勾选 UI-TARS。
- 屏幕录制：系统设置 → 隐私与安全 → 屏幕录制，勾选 UI-TARS。

2. 部署方式

云端部署（推荐新手）
使用 HuggingFace Inference Endpoints 快速部署，参考官方文档。

本地部署（需 GPU 资源）
通过 vLLM 框架部署（需 vllm>=0.6.1）：

pip install -U transformers
VLLM_VERSION=0.6.6
CUDA_VERSION=cu124
pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

启动 OpenAI 兼容的 API 服务：

python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <模型路径>

模型可从 Hugging Face 下载：UI-TARS 模型库。

3. 配置与运行

API 设置
打开 UI-TARS 应用后，进入设置页面填写 API 信息：
- 基础 URL：本地部署为 http://127.0.0.1:8000/v1，云端部署根据服务商提供地址填写。
- API Key：本地部署可留空，云端需填写服务商提供的密钥。
模型选择
根据硬件配置选择模型：
- 低配 GPU（如 T4）：2B 模型。
- 高性能 GPU（如 A10/A100）：7B 或 72B 模型。

三、操作示例

示例 1：发送推文

输入指令：Send a Twitter with the content "Hello World"。
UI-TARS 自动执行：
- 打开浏览器并访问 Twitter。
- 定位输入框并输入内容。
- 点击“发布”按钮。

示例 2：查询天气

输入指令：Get the current weather in San Francisco。
模型通过浏览器搜索并返回天气信息，同时显示操作轨迹和状态反馈。

四、进阶使用

自定义工作流
开发者可通过集成 Midsite.js 实现浏览器自动化，或调用 API 构建复杂任务流程。
坐标映射
模型输出的坐标为相对值（范围 0-1000），需转换为屏幕绝对坐标：
```
X_absolute = X_relative * 屏幕宽度 / 1000
Y_absolute = Y_relative * 屏幕高度 / 1000
```
例如屏幕分辨率 1920×1080，模型输出 (235, 512) 对应绝对坐标 (451, 553)。