字节大厂开源agent-UI-TARS Desktop

以下是关于 UI-TARS Desktop 的功能介绍与详细使用教程,结合了官方文档与用户实践指南:


一、功能概览

UI-TARS Desktop 是字节跳动开源的基于视觉语言模型(VLM)的桌面端 AI 代理工具,支持通过自然语言指令控制电脑操作,实现跨平台 GUI 自动化交互。其核心功能包括:

  1. 自然语言控制

    • 用户可直接输入指令(如“发送一条包含‘Hello World’的推文”或“查看旧金山天气”),模型会自动解析并执行对应的操作(如打开浏览器、点击按钮、输入内容等)。
    • 支持多语言指令,中文和英文均可适配。
  2. 多模态感知与交互

    • 结合视觉识别技术,实时分析屏幕截图中的界面元素(如按钮、输入框),并通过坐标定位精准操作(点击、输入、滚动等)。
    • 支持跨平台操作,覆盖 Windows、macOS、移动端及网页环境,提供标准化的行动定义(如 clicktypescroll)。
  3. 自动化任务执行

    • 可处理复杂多步任务(如自动填写表单、跨应用导航),支持任务分解、错误纠正和实时反馈。
    • 具备短期记忆(保存当前任务上下文)和长期记忆(记录历史交互)功能,提升连续任务执行效率。
  4. 高性能与扩展性

    • 提供 2B、7B、72B 三种模型规模,推荐使用 7B-DPO 或 72B-DPO 模型以获得最佳性能。
    • 支持云端部署(HuggingFace Inference Endpoints)和本地部署(vLLM/Ollama),开发者可通过 API 集成自定义工作流。

二、安装与配置教程

1. 下载与安装
  • 下载地址
    从 GitHub 仓库下载最新版本:UI-TARS-desktop Releases

    • macOS:拖拽 .app 文件至 Applications 文件夹,若提示“损坏”,运行以下命令修复:
      sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
      
    • Windows:直接运行安装程序。
  • 权限配置(macOS)
    需在系统设置中启用权限:

    • 辅助功能系统设置 → 隐私与安全 → 辅助功能,勾选 UI-TARS。
    • 屏幕录制系统设置 → 隐私与安全 → 屏幕录制,勾选 UI-TARS。
2. 部署方式
  • 云端部署(推荐新手)
    使用 HuggingFace Inference Endpoints 快速部署,参考官方文档

  • 本地部署(需 GPU 资源)
    通过 vLLM 框架部署(需 vllm>=0.6.1):

    pip install -U transformers
    VLLM_VERSION=0.6.6
    CUDA_VERSION=cu124
    pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}
    

    启动 OpenAI 兼容的 API 服务:

    python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <模型路径>
    

    模型可从 Hugging Face 下载:UI-TARS 模型库

3. 配置与运行
  1. API 设置
    打开 UI-TARS 应用后,进入设置页面填写 API 信息:

    • 基础 URL:本地部署为 http://127.0.0.1:8000/v1,云端部署根据服务商提供地址填写。
    • API Key:本地部署可留空,云端需填写服务商提供的密钥。
  2. 模型选择
    根据硬件配置选择模型:

    • 低配 GPU(如 T4):2B 模型。
    • 高性能 GPU(如 A10/A100):7B 或 72B 模型。

三、操作示例

示例 1:发送推文
  1. 输入指令:Send a Twitter with the content "Hello World"
  2. UI-TARS 自动执行:
    • 打开浏览器并访问 Twitter。
    • 定位输入框并输入内容。
    • 点击“发布”按钮。
示例 2:查询天气
  1. 输入指令:Get the current weather in San Francisco
  2. 模型通过浏览器搜索并返回天气信息,同时显示操作轨迹和状态反馈。

四、进阶使用

  • 自定义工作流
    开发者可通过集成 Midsite.js 实现浏览器自动化,或调用 API 构建复杂任务流程。
  • 坐标映射
    模型输出的坐标为相对值(范围 0-1000),需转换为屏幕绝对坐标:
    X_absolute = X_relative * 屏幕宽度 / 1000
    Y_absolute = Y_relative * 屏幕高度 / 1000
    
    例如屏幕分辨率 1920×1080,模型输出 (235, 512) 对应绝对坐标 (451, 553)。

五、注意事项

  • 性能优化:推荐使用 7B/72B-DPO 模型,避免使用量化版 GGUF 模型(性能不稳定)。
  • 错误处理:若任务失败,可通过 call_user() 指令请求人工干预。
  • 系统兼容性:当前 macOS 支持较完善,Windows 功能仍在迭代中。

如需更详细的操作演示或代码示例,可参考 CSDN 博客GitHub 文档

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值