GUICourse: From General Vision Language Model to Versatile GUI Agent
前言
一篇关于构建提升GUI智能体能力的数据集的文章,文章提到的关于提升GUI能力的三个点听起来还是比较合理的,此外,数据集的数量非常丰富,比起一些benchmark只提供几百条数据显得很有诚意。总的来说是关于提升GUI智能体能力的一个比较有想法的工作。
Paper | https://arxiv.org/pdf/2406.11317 |
---|---|
Github | https://github.com/yiye3/GUICourse |
Abstract
VLMs的进步得以帮助人类完成GUI任务,然而,现有的VLMs受到基础能力(OCR & grounding)以及GUI知识方面的挑战,这阻碍了它们成为实用的GUI智能体。为此,本文提出GUICourse,用于训练基于VLMs的GUI智能体的数据集。首先,作者提出GUIEnv数据集来增强VLMs的OCR和grounding能力。接着,作者提出GUIAct和GUIChat数据集用于增强GUI组件和交互的知识。实验证明基于本数据集的GUI智能体在通用的GUI任务上有更好的表现。最后作者通过消融实验分析了不同的变体。
Motivation
现有关于GUI智能体的工作可以分为基于文本和基于视觉的。基于视觉的智能体有两点优势:
- 容易获取(直接截图)。
- 具有可迁移性(GUI视觉元素相似)。
然而基于视觉的智能体严重依赖VLMs的基础能力和内部知识,但是当前VLMs有如下问题:
- grounding能力不足以定位GUI元素。
- 对GUI图标的理解不够。
Solution
因此,为了提高当前VLMs的基础能力和GUI知识,本文提出GUICourse,包含了三个数据集:
- GUIEnv: 10M website page annotation pairs作为预训练数据,0.7M region-text