网易首页 > 网易号 > 正文 申请入驻

o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

0
分享至

VeriGUI 论文一经发布,迅速在 Hugging Face 荣登月榜第三。

作者丨整数智能

GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。

长期以来,评估 AI 模型能力的标准主要依赖于静态的、封闭世界的基准测试,例如 MMLU 或 GPQA。这些基准有效地衡量了一个模型“知道”什么,即其知识储备和在特定、孤立任务上的表现。然而,随着 Agent 的兴起,研究界的共识正在迅速转向一个更根本的问题:一个 LLM 及 Agent,如何创造更大的价值?

这种转变催生了新一代的动态、交互式基准,它们旨在评估 Agent 在复杂、开放和不可预测的环境中的实际执行能力。在这个背景下,由 2077AI 开源基金会牵头构建的全新基准 VeriGUI应运而生,VeriGUI 具备两大核心特征突破——长链复杂性 (Long-Chain Complexity) 与子任务级可验证性 (Subtask-Level Verifiability)。

VeriGUI 论文一经发布,迅速在 Hugging Face 荣登月榜第三!这一成就不仅证明了社区对 VeriGUI 价值的高度认可,也为通用智能代理的研究提供了一个更真实、更精细的试验场。

VeriGUI 数据集一览

01

背景痛点:简单任务已成“过去式”,复场景呼唤新基准

当前 GUI 智能体研究的核心痛点在于,现有数据集已无法满足前沿模型的评估需求:

  • 短流程,浅交互:现有数据集的任务平均长度通常不足 10 步,智能体只需识别 UI 元素并执行相应动作即可完成,这远不能模拟真实世界中涉及条件判断和状态追踪的复杂工作流。

  • 结果式验证,过程成“黑箱”:大多基准仅通过 URL 匹配等方式验证最终结果,当任务失败时,无法得知问题出在哪个环节,难以对智能体的规划能力进行针对性改进。

VeriGUI 与其他现有 GUI 数据集和基准测试平台在平台支持、步骤数、可验证性、人工演示、可执行性和交互方式上的差异

02

三大技术亮点:为复杂任务而生

VeriGUI 通过三大技术亮点,精准地解决了上述难题:

  1. 4-8 子任务 × 百级操作的长链轨迹:VeriGUI 中的每个任务都被分解为 4-8 个相互依赖的子任务,完成全程需要数百次 GUI 操作。更具创新性的是,任何子任务都能作为独立的起点,从而可以对智能体在任务不同阶段的规划、记忆和决策能力进行全面评估。

  2. 子任务级验证信号,支持多策略探索:VeriGUI 提供子任务级别的精细化监督信号,它只验证每个子任务的目标是否达成,而不限制智能体达成目标的具体方式。这极大地鼓励了智能体探索多样化的解决策略,而不是死板地遵循预设步骤。

  3. 跨 Web & Desktop 的统一操作空间:数据集同时涵盖了网页和桌面两大主流平台,并定义了一套统一的 GUI 操作空间(如点击、输入、拖拽等),使智能体能够学习跨环境的通用交互能力。

VeriGUI 数据集的设计理念与核心:长链条复杂性 (Long-Chain Complexity)和子任务级别可验证性 (Subtask-Level Verifiability)

03

数据规模速览

基于已收集的 130 个 Web 任务轨迹,VeriGUI 展现了其卓越的复杂性:

  • 任务总数: 130

  • 子任务总数: 587

  • 平均每任务步数: 214.4

VeriGUI 数据集的详细统计数据,包括任务领域分布(a)、子任务数量分布(b、c)、GUI 动作分布(d)、不同领域中的动作数量(e)以及总体步骤数量分布(f)

04

基准实验摘要:顶尖模型遭遇“滑铁卢”

我们在 VeriGUI 上对多种 SOTA 基础模型进行了全面测试,测试框架涵盖了四种主流范式:

  • 智能体框架: Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。

  • 实验结果:结果令人震惊——在所有测试组合中,没有任何一个模型的平均任务成功率超过 10%。这清晰地揭示了现有模型在长时程规划、多步推理和复杂决策方面的普遍瓶颈,也印证了 VeriGUI 作为新一代高难度基准的价值。

不同类型的智能体在 VeriGUI 基准测试上 130 个网页任务中的成功率(SR)和任务完成率(CR)

05

科研价值:填补评测空白,赋能前沿研究

VeriGUI 的发布具有重要的科研价值:

  • 填补评测空白:它为评估智能体在长时程、开放式 GUI 工作流中的表现提供了业界首个具备子任务级监督的基准。

  • 赋能前沿研究:其细粒度的验证机制为智能体的规划、记忆、决策和容错等关键能力的研究提供了前所未有的精细化监督信号,有助于深入分析失败模式和规划瓶颈。

06

开源资源 & 快速上手

我们已将 VeriGUI 完全开源,希望能为社区的研究提供便利。

  • GitHub 代码仓

    https://github.com/VeriGUI-Team/VeriGUI

  • Hugging Face 数据集:https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

您可以轻松通过 Datasets 库一键加载,快速开启您的研究。

如果您需要详细了解我们的实验过程和更多数据集构建细节,欢迎阅读我们的论文:

  • ArxivPaper: https://arxiv.org/abs/2508.04026

07

展望与合作计划

VeriGUI 项目仍在进行中。我们正积极扩充数据集,未来版本将包含更多强调交互性的 Web 任务(如表单填写、账户登录)以及大量复杂的桌面软件操作任务。

2077AI 开源基金会致力于推动 AI 领域开放研究和合作。我们真诚地邀请学术界和工业界的同仁们与我们合作,共同建设 VeriGUI 生态,在我们的基准上提交新的 Baseline,一起探索通用智能体的未来。

欢迎关注我们(https://www.2077ai.com/),也期待与您的合作!

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仅出场2分46秒,锋线大将已经彻底失去了中国队教练组的信任?

仅出场2分46秒,锋线大将已经彻底失去了中国队教练组的信任?

稻谷与小麦
2026-03-02 01:10:00
女人一旦有这几种表现,就别再联系了,真的没必要

女人一旦有这几种表现,就别再联系了,真的没必要

加油丁小文
2026-02-27 05:00:03
媒体人:中国男篮是一支很难执教的球队,信心像玻璃一样易碎

媒体人:中国男篮是一支很难执教的球队,信心像玻璃一样易碎

懂球帝
2026-03-01 17:37:06
全红婵家庭近况曝光。全家搬到果园住,母亲无奈感叹:害怕说错话

全红婵家庭近况曝光。全家搬到果园住,母亲无奈感叹:害怕说错话

小椰的奶奶
2026-03-01 01:10:22
里斯-詹姆斯:现在足球发展就是这样,主要得分方式是定位球

里斯-詹姆斯:现在足球发展就是这样,主要得分方式是定位球

懂球帝
2026-03-02 03:35:14
基辛格直言,美国100年搞垮了4个世界老二,第五个会反手干掉美国

基辛格直言,美国100年搞垮了4个世界老二,第五个会反手干掉美国

文史达观
2024-03-07 14:02:52
李保田:我一生不接广告,不和张国立、王刚合作,不参加儿子婚礼

李保田:我一生不接广告,不和张国立、王刚合作,不参加儿子婚礼

小熊侃史
2026-02-15 07:25:11
连续2场逆转,中国男篮两连胜,李弘权9+11成奇兵 高诗岩防守拉满

连续2场逆转,中国男篮两连胜,李弘权9+11成奇兵 高诗岩防守拉满

替补席看球
2026-03-01 17:55:20
回顾:那个因拍“假老虎”,被判刑2年的陕西农民,后来怎样了?

回顾:那个因拍“假老虎”,被判刑2年的陕西农民,后来怎样了?

可乐88
2024-04-18 08:31:32
你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

夜深爱杂谈
2026-02-24 20:10:07
伊朗称重创美军舰!安理会应中俄要求紧急开会!联合国秘书长发表声明

伊朗称重创美军舰!安理会应中俄要求紧急开会!联合国秘书长发表声明

每日经济新闻
2026-02-28 23:06:38
价格已涨2.5倍!网友网购2条8GB内存故障退货:还被商家收15%折旧费

价格已涨2.5倍!网友网购2条8GB内存故障退货:还被商家收15%折旧费

快科技
2026-03-01 11:11:48
哈梅内伊全家死伤惨重!30枚炸弹炸出三个巨大地洞:一定藏有内奸

哈梅内伊全家死伤惨重!30枚炸弹炸出三个巨大地洞:一定藏有内奸

诺诺谈史
2026-03-01 11:21:42
广东“要大发”了,这3个地方被国家选中,即将腾飞!有你家乡吗

广东“要大发”了,这3个地方被国家选中,即将腾飞!有你家乡吗

瓜哥的动物日记
2026-03-02 00:52:45
“母子落魄吃蛋糕”视频火了,获赞过百万:谁不羡慕这样的父母?

“母子落魄吃蛋糕”视频火了,获赞过百万:谁不羡慕这样的父母?

妍妍教育日记
2026-02-25 20:58:43
新款岚图知音内饰发布,搭载乾崑智驾ADS 4与鸿蒙座舱 5

新款岚图知音内饰发布,搭载乾崑智驾ADS 4与鸿蒙座舱 5

皆电
2025-07-23 14:08:49
美以联手空袭伊朗 伊朗誓言“毁灭式报复”

美以联手空袭伊朗 伊朗誓言“毁灭式报复”

新华社
2026-02-28 23:16:14
斯诺克最新积分排名!希金斯升至第9,肖国栋跌出前12,赵心童第2

斯诺克最新积分排名!希金斯升至第9,肖国栋跌出前12,赵心童第2

越岭寻踪
2026-03-01 08:41:27
男篮官方晒赛后动态!继伟兴奋庆祝,郭振明开心,赵睿更衣室哭了

男篮官方晒赛后动态!继伟兴奋庆祝,郭振明开心,赵睿更衣室哭了

篮球资讯达人
2026-03-01 21:14:36
逆袭成功!55顺位+1500万,23岁啊,勇士捡到大宝贝了

逆袭成功!55顺位+1500万,23岁啊,勇士捡到大宝贝了

球童无忌
2026-03-01 20:31:40
2026-03-02 04:00:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7098文章数 20733关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

艺术
本地
时尚
数码
公开课

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

本地新闻

津南好·四时总相宜

今年春天最流行的4件卫衣,照着穿就很好看

数码要闻

曝苹果WWDC 26将推Core AI框架取代Core ML并公布多项AI功能

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版