以下是关于 UI-TARS Desktop 的功能介绍与详细使用教程,结合了官方文档与用户实践指南:
一、功能概览
UI-TARS Desktop 是字节跳动开源的基于视觉语言模型(VLM)的桌面端 AI 代理工具,支持通过自然语言指令控制电脑操作,实现跨平台 GUI 自动化交互。其核心功能包括:
-
自然语言控制
- 用户可直接输入指令(如“发送一条包含‘Hello World’的推文”或“查看旧金山天气”),模型会自动解析并执行对应的操作(如打开浏览器、点击按钮、输入内容等)。
- 支持多语言指令,中文和英文均可适配。
-
多模态感知与交互
- 结合视觉识别技术,实时分析屏幕截图中的界面元素(如按钮、输入框),并通过坐标定位精准操作(点击、输入、滚动等)。
- 支持跨平台操作,覆盖 Windows、macOS、移动端及网页环境,提供标准化的行动定义(如
click
、type
、scroll
)。
-
自动化任务执行
- 可处理复杂多步任务(如自动填写表单、跨应用导航),支持任务分解、错误纠正和实时反馈。
- 具备短期记忆(保存当前任务上下文)和长期记忆(记录历史交互)功能,提升连续任务执行效率。
-
高性能与扩展性
- 提供 2B、7B、72B 三种模型规模,推荐使用 7B-DPO 或 72B-DPO 模型以获得最佳性能。
- 支持云端部署(HuggingFace Inference Endpoints)和本地部署(vLLM/Ollama),开发者可通过 API 集成自定义工作流。
二、安装与配置教程
1. 下载与安装
-
下载地址
从 GitHub 仓库下载最新版本:UI-TARS-desktop Releases 。- macOS:拖拽
.app
文件至Applications
文件夹,若提示“损坏”,运行以下命令修复:sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
- Windows:直接运行安装程序。
- macOS:拖拽
-
权限配置(macOS)
需在系统设置中启用权限:- 辅助功能:
系统设置 → 隐私与安全 → 辅助功能
,勾选 UI-TARS。 - 屏幕录制:
系统设置 → 隐私与安全 → 屏幕录制
,勾选 UI-TARS。
- 辅助功能:
2. 部署方式
-
云端部署(推荐新手)
使用 HuggingFace Inference Endpoints 快速部署,参考官方文档 。 -
本地部署(需 GPU 资源)
通过 vLLM 框架部署(需vllm>=0.6.1
):pip install -U transformers VLLM_VERSION=0.6.6 CUDA_VERSION=cu124 pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}
启动 OpenAI 兼容的 API 服务:
python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <模型路径>
模型可从 Hugging Face 下载:UI-TARS 模型库 。
3. 配置与运行
-
API 设置
打开 UI-TARS 应用后,进入设置页面填写 API 信息:- 基础 URL:本地部署为
http://127.0.0.1:8000/v1
,云端部署根据服务商提供地址填写。 - API Key:本地部署可留空,云端需填写服务商提供的密钥。
- 基础 URL:本地部署为
-
模型选择
根据硬件配置选择模型:- 低配 GPU(如 T4):2B 模型。
- 高性能 GPU(如 A10/A100):7B 或 72B 模型。
三、操作示例
示例 1:发送推文
- 输入指令:
Send a Twitter with the content "Hello World"
。 - UI-TARS 自动执行:
- 打开浏览器并访问 Twitter。
- 定位输入框并输入内容。
- 点击“发布”按钮。
示例 2:查询天气
- 输入指令:
Get the current weather in San Francisco
。 - 模型通过浏览器搜索并返回天气信息,同时显示操作轨迹和状态反馈。
四、进阶使用
- 自定义工作流
开发者可通过集成 Midsite.js 实现浏览器自动化,或调用 API 构建复杂任务流程。 - 坐标映射
模型输出的坐标为相对值(范围 0-1000),需转换为屏幕绝对坐标:
例如屏幕分辨率 1920×1080,模型输出 (235, 512) 对应绝对坐标 (451, 553)。X_absolute = X_relative * 屏幕宽度 / 1000 Y_absolute = Y_relative * 屏幕高度 / 1000
五、注意事项
- 性能优化:推荐使用 7B/72B-DPO 模型,避免使用量化版 GGUF 模型(性能不稳定)。
- 错误处理:若任务失败,可通过
call_user()
指令请求人工干预。 - 系统兼容性:当前 macOS 支持较完善,Windows 功能仍在迭代中。