SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents论文学习

🕗 发布于 2024-09-25 04:52 学习

首先是惯例强调一下自己的工作是基于视觉的，不是那种拿一个html文件或者UI结构树给模型让他操作的工作。然后提出了一个很有意思的观点，认为Grounding能力（定位能力）对模型表现的影响非常大。

主要novelty就这几个：

我们的主要贡献如下：•我们开发了一个统一的可视化GUI代理SeeClick，它仅依靠界面截图在不同的GUI平台上执行点击和打字操作。

•我们前瞻性地探索了可视化GUI代理的GUI基础，并通过提出的GUI基础预培训策略增强了SeeClick。

•我们创建了一个逼真的GUI基础基准ScreenSpot，包含来自各种GUI平台的1200多条指令。

•ScreenSpot和三个代理任务的实验结果表明，增强代理的接地能力是提高下游代理任务性能的关键。

接下来文章提到了grounding能力的一些细节。文章提到从前的很多工作会把图像分成很多部分然后训练模型识别目标在哪一个块里。本文则要求模型直接用自然语言方式输出目标，然后计算与真实结果的交叉熵。

至于项目中构建的数据集ScreenSpot，作者是网络爬取了web数据，从开源数据集中充足了一部分手机的轨迹数据，还照搬了一部分开源数据（LLAVA的常规数据）。

“Web UI具有跨网站的各种布局和设计风格，是训练LVLM在不同GUI上下文中的一般识别和基础能力的理想选择。我们从最新的Common Crawl存储库中收集了大约30万个网页，作为我们的web UI培训数据。对于每个网页，我们从HTML代码中收集两种类型的元素，如图3所示：（1）显示可见文本内容的元素；以及（2）具有特殊“title”属性的元素，在悬停时显示描述性文本。这种方法确保我们收集一系列可交互的元素y及其相应的指令x，同时包含广泛的文本和图标元素。除了基础任务p（y|s，x）外，我们还包括基于坐标预测文本描述的web OCR任务p（x|s，y）。”

“移动数据。对于移动UI，我们包括三种类型的数据：小部件字幕、移动UI基础和移动UI摘要。小部件字幕数据集为移动UI元素提供语言描述；例如，音乐播放器界面上播放按钮的描述“播放音乐”。”

最后还照搬了一部分开源数据（LLAVA的常规数据）

模型训练方面，文章的基础模型是Qwen-VL，在上面的数据集训练了1个epoch，用了LoRA。

实验部分，首先实验定位能力，与各种模型battle 巴拉巴拉，然后又是在三大件上面进行传统功夫GUI agent实力比拼，结果如下：

接下来是一些训练细节，做ppt的时候再看

原文地址：https://blog.csdn.net/LI_XIAO_XING/article/details/142498750

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：cmake--file
下一篇：物联网迎来下半场，国产 IoTOS 打造企业级智能硬件云服务平台

@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
阅读更多2024-11-16
25浙江省考-28天学行测-Day5 & Day6-判断推理（中）
1、另有他因2、因果倒置3、否定此因4、根本原因5、三圈质疑1、排除他因2、四圈支持1、无论据有结论2、有论据有结论3、质疑论证过程4、严谨逻辑关系5、比例类论证1、解释说明2、增加论据3、断点
阅读更多2024-11-16
Rust 入门指南（零）：安装及 Cargo 管理器
系列第 0 篇，简单介绍了 Rust 的基本安装和配置流程，以及如何通过 Cargo 创建和管理项目。
阅读更多2024-11-16
Centos使用人大金仓ksql
Centos使用人大金仓ksql
阅读更多2024-11-16
多模态大模型简介
多模态大模型是机器学习领域的一个新兴趋势，它结合了文本、图像、音频等多种数据模态，以实现更全面和深入的信息理解和处理。这种模型能够处理跨模态任务，如图像标注、视觉问答、文本到图像的生成等，是人工智能领
阅读更多2024-11-16
javaScript交互补充2（动画函数封装）
如果多个元素都使用这个动画函数，每次都要var 声明定时器，我们可以给不同元素使用不同的定时器（自己用自己的定时器）核心原理：利用js是一门动态语言，可以很方便的给当前对象添加属性。缓动动画就是让元素
阅读更多2024-11-16
【鸿蒙开发】第十五章 H5与端侧交互、Cookies以及Web调试
Web组件支持在应用拦截到页面请求后自定义响应请求能力。开发者通过接口来实现自定义资源请求响应。自定义请求能力可以用于开发者自定义Web页面响应、自定义文件资源响应等场景。Web网页上发起资源加载请求
阅读更多2024-11-16
javaScript交互补充（元素的三大系列）
使用client系列的相关属性来获取元素可视区的相关信息，可以动态的得到该元素的边框大小，元素大小等。返回自身包括padding，内容区宽度，不含边框，返回数值不带单位。返回自身包括padding，内
阅读更多2024-11-16
django 过滤器的执行
默认情况下，会执行，特别是如果在中配置了它，或者没有禁用它。禁用过滤器：可以通过在APIView中设置来禁用过滤器，避免执行。手动调用过滤器：如果需要，你可以在视图中手动调用来过滤查询集。自定义过滤器
阅读更多2024-11-16
在Ubuntu 24.04 LTS上安装飞桨PaddleX
首先，请运行“ubuntu-drivers devices”命令列出当前可用的硬件设备，确保Ubuntu 24.04.1 LTS已发现安装在桌面计算机中的英伟达显卡，如下图所示。是基于飞桨框架构建的一
阅读更多2024-11-16

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents论文学习

相关文章