网易首页 > 网易号 > 正文 申请入驻

蚂蚁集团发布VenusBench-GD:首个全平台GUI智能交互能力测试基准

0
分享至


这项由蚂蚁集团Venus团队联合iMean AI公司共同完成的研究发表于2024年12月,研究论文编号为arXiv:2512.16501v1。该研究团队由来自蚂蚁集团的周北桐、黄哲潇、郭远、顾张轩等多位研究员以及iMean AI的孔德韩、尚彦一等研究人员组成,项目由蚂蚁集团的沈舒恒博士领导。有兴趣深入了解的读者可以通过论文编号arXiv:2512.16501v1查询完整论文。

当你用手机点击一个APP图标,或者在电脑上寻找某个按钮时,这些看似简单的操作背后其实隐藏着复杂的视觉理解过程。你的眼睛需要在密密麻麻的界面元素中精准定位目标,大脑要理解各种图标的含义,还要根据空间位置关系找到正确的位置。现在,人工智能也在努力学会这种能力,就像训练一个从未见过电脑界面的人学会如何操作各种软件一样。

蚂蚁集团的研究团队发现了一个关键问题:现有的AI测试标准就像只考察学生能否认识单个汉字,却从未测试他们能否读懂一篇完整文章。大多数GUI(图形用户界面)测试基准要么规模太小,就像只有几十道题的考试,要么过于专业化,就像只测试医学专业术语而忽略了日常对话能力。更重要的是,这些测试往往只关注最基础的"找到红色按钮"这类简单任务,却忽略了真实应用中需要的复杂推理能力,比如"找到价格最便宜的那个商品并加入购物车"。

为了解决这个问题,研究团队开发了VenusBench-GD,这是目前世界上最大规模、最全面的GUI理解能力测试基准。这就像为AI设计了一套从小学到大学的完整课程体系,不仅要测试基础的视觉识别能力,还要考察复杂的逻辑推理和问题解决能力。

这套测试系统覆盖了我们日常使用的所有主要平台:手机应用、网页界面和电脑软件,总共包含97个不同的应用程序,涵盖创意设计、办公效率、电子商务、娱乐、金融、知识获取、社交、旅行和工具类等10个主要领域。研究团队花费三个月时间,动员20位专业标注员,精心制作了6166个测试样本,每个样本都经过多轮严格的质量检验。

VenusBench-GD的最大创新在于建立了分层次的评估体系。基础任务就像教会AI"看图识字",包括元素识别、空间定位和视觉特征理解三个方面。元素识别类似于教AI认识界面上的各种"零件",比如按钮、文本框、下拉菜单等;空间定位则是教会AI理解相对位置关系,比如"找到搜索框右边的那个按钮";视觉特征理解让AI学会根据外观描述找到目标,比如"找到那个心形图标"。

高级任务则更像是考察AI的"综合应用能力"。功能推理任务要求AI理解不同界面元素的实际功能,就像你需要知道那个"X"按钮是用来关闭窗口的,而不仅仅是识别它的外形。逻辑推理任务则更进一步,要求AI能够进行多步骤的思考和比较,比如"找到评分最高但价格适中的那家餐厅"。最有趣的是拒绝应答任务,这是在测试AI是否具备"实事求是"的品质——当用户的要求在当前界面中根本无法完成时,AI应该诚实地说"找不到",而不是胡乱猜测一个答案。

研究团队在数据质量控制方面下了很大功夫。他们开发了一套"人机协作"的标注流程,先让人工专家标记出界面中的重要元素,然后用AI模型生成对应的自然语言指令,最后再由人工专家验证指令与元素是否匹配。这个过程就像制作一道精美的菜肴,需要选材、配菜、烹饪、品尝等多个环节的精心把控。

为了确保测试结果的可靠性,研究团队还进行了"盲测"实验。他们从多个现有基准中随机抽取了3000个样本,打乱顺序后让标注员重新评估质量,就像让老师在不知道学生姓名的情况下批改试卷一样。结果显示,VenusBench-GD的标注错误率仅为2.6%,远低于其他基准的10-25%错误率。

在实验评估部分,研究团队测试了目前最先进的多种AI模型,包括GPT-4o、Claude等通用多模态模型,以及专门为GUI任务设计的特化模型。测试结果揭示了一个有趣的现象:在基础任务上,通用AI模型的表现已经追上甚至超越了专门的GUI模型。比如Qwen3-VL-8B模型在基础任务上达到了76.96%的准确率,表现相当出色。这就像一个全科医生在处理常见疾病时,效果并不比专科医生差多少。

然而,在高级任务上,专业化的GUI模型仍然保持明显优势。在功能推理和逻辑推理任务中,像Holo1.5-72B和UI-Venus-Ground-72B这样的专业模型分别达到了40%和68%的准确率,明显优于通用模型。这说明专业化训练在复杂任务中仍然具有不可替代的价值,就像专科医生在处理疑难杂症时的专业优势一样。

最令人意外的发现出现在拒绝应答任务中。大多数专业GUI模型在这个任务上的表现近乎为零,只有UI-Venus-Ground-72B达到了51.33%的准确率。这暴露了当前AI模型的一个致命弱点:过度自信和缺乏自我认知。就像一个总是不懂装懂的学生,即使面对无法解答的问题也要硬着头皮给出答案,而不是诚实地承认"我不知道"。

研究团队还特别关注了多语言环境下的表现。他们发现模型在中文指令下的表现通常比英文更好,这可能与训练数据的分布有关。比如Qwen3-VL-4B模型在基础任务上从英文环境的72.54%提升到中文环境的81.32%,显示出明显的语言偏好。

为了验证测试基准的有效性,研究团队还进行了人类表现对比实验。结果显示人类在高级任务上的表现显著超越所有AI模型:在逻辑推理、功能理解和拒绝应答三个方面分别超出当前最佳AI模型41.6%、11.8%和17.8%。这说明AI在GUI理解方面还有很大的提升空间,就像学生与老师之间仍然存在明显的能力差距。

通过深入的错误分析,研究团队发现了AI模型的几个主要问题。首先是语义理解偏差,AI往往难以将抽象概念与具体视觉元素联系起来,比如无法理解"文本对齐"这个概念对应的图标样式。其次是空间定位不准确,虽然能够大致判断区域位置,但在密集界面中难以精确区分相邻元素。第三是视觉特征组合能力不足,当需要同时考虑颜色、形状、位置等多个属性时容易出错。最重要的是缺乏多步推理能力,面对需要比较、筛选、排序的复杂任务时往往采用"贪心策略",只关注第一个符合条件的选项而忽略全局最优解。

这项研究的意义远远超出了学术范畴。随着AI助手越来越多地参与我们的日常数字生活,GUI理解能力将成为衡量AI实用性的重要指标。一个真正智能的AI助手不仅要能听懂你说的话,还要能在复杂的应用界面中准确执行你的指令,就像一个贴心的秘书能够熟练操作各种办公软件一样。

VenusBench-GD的发布标志着GUI智能理解研究进入了一个新阶段。它不仅提供了更严格的评估标准,也为研究者指出了未来的发展方向。随着这套测试基准的广泛应用,我们有理由期待AI在图形界面理解方面取得更大突破,最终实现真正智能的人机交互体验。

说到底,这项研究就像为AI设计了一套"驾照考试",不仅要测试基本的操作技能,还要考察复杂情况下的应变能力。只有通过这样全面而严格的考核,AI才能真正成为我们值得信赖的数字助手。当然,从目前的测试结果来看,AI们距离拿到"满分驾照"还需要继续努力,但这个方向无疑是正确的。归根结底,这不仅是技术进步的需要,更是我们迈向更智能、更便捷数字生活的必经之路。

Q&A

Q1:VenusBench-GD与现有的GUI测试基准有什么不同?

A:VenusBench-GD是目前规模最大、最全面的GUI理解测试基准,包含6166个测试样本,覆盖手机、网页、电脑三大平台的97个应用。与现有基准相比,它建立了分层评估体系,不仅测试基础的元素识别能力,还考察复杂的逻辑推理和功能理解能力,标注错误率仅为2.6%,远低于其他基准的10-25%。

Q2:为什么专业的GUI模型在拒绝应答任务上表现这么差?

A:这暴露了当前AI模型过度自信和缺乏自我认知的问题。大多数专业GUI模型在拒绝应答任务上准确率接近零,说明它们无法识别不可能完成的指令,总是试图强行给出答案而不是诚实地说"找不到"。这就像一个不懂装懂的学生,即使面对无法解答的问题也要硬着头皮回答。

Q3:VenusBench-GD测试结果对普通用户有什么意义?

A:测试结果表明当前AI在GUI理解方面还有很大提升空间,人类在复杂任务上仍明显超越AI模型。这意味着现阶段的AI助手在处理复杂界面操作时可能出错,用户需要保持适当的监督。同时,这也预示着未来AI助手的巨大潜力,随着技术进步,我们将拥有更智能、更可靠的数字助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周总理为什么不愿在人民大会堂国画《江山如此多娇》上题词?

周总理为什么不愿在人民大会堂国画《江山如此多娇》上题词?

老杉说历史
2026-02-16 18:05:07
湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

青青会讲故事
2025-09-17 11:32:38
巴基斯坦三军总司令被逼至绝路,从英雄变叛徒

巴基斯坦三军总司令被逼至绝路,从英雄变叛徒

王觪晓
2026-01-26 20:43:10
哪个细节让你突然发现自己消费降级了?电动车,真的谁骑谁香

哪个细节让你突然发现自己消费降级了?电动车,真的谁骑谁香

另子维爱读史
2026-02-13 21:18:44
中年妇女,毫无羞耻感。

中年妇女,毫无羞耻感。

老陆不老
2026-02-16 14:51:23
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
48年谭政开会,台下12个纵队政委大气不敢出,赖传珠:都怕被点名

48年谭政开会,台下12个纵队政委大气不敢出,赖传珠:都怕被点名

小莜读史
2026-02-17 10:29:38
被做局了!荷兰逼中方交出资产,安世半导体危险,2.5万客户白丢

被做局了!荷兰逼中方交出资产,安世半导体危险,2.5万客户白丢

芭比衣橱
2026-02-16 22:44:33
官宣签约达成!勇士捡漏火箭旧将,双向合同拿下场均18+6悍将

官宣签约达成!勇士捡漏火箭旧将,双向合同拿下场均18+6悍将

扣篮达人
2026-02-17 10:09:21
1发就能瘫痪整个美国!美专家要求中国:立即停止使用这个武器!

1发就能瘫痪整个美国!美专家要求中国:立即停止使用这个武器!

小轲搞笑解说
2026-02-17 10:10:55
央视春晚落幕!3人上桌,2人抢尽风头,1人不如不来,唯他挨骂惨

央视春晚落幕!3人上桌,2人抢尽风头,1人不如不来,唯他挨骂惨

东方不败然多多
2026-02-17 10:33:49
诺曼·鲍威尔首次入选全明星,如今他将目光重新聚焦于热火复兴

诺曼·鲍威尔首次入选全明星,如今他将目光重新聚焦于热火复兴

好火子
2026-02-17 07:06:46
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
为何厂家再三强调不需要“热车”,而民间却普遍认为需要?

为何厂家再三强调不需要“热车”,而民间却普遍认为需要?

爱车大家说
2026-02-12 18:37:53
2100枚核弹24小时待命,张召忠曾发出警告:一旦开战,将无处可逃

2100枚核弹24小时待命,张召忠曾发出警告:一旦开战,将无处可逃

近史博览
2026-01-22 12:52:47
古巴能源供应被切断,垃圾堆积如山

古巴能源供应被切断,垃圾堆积如山

昊轩看世界
2026-01-14 10:15:12
终于知道闫学晶为什么抱怨日子过得紧巴巴了,她家三套房…

终于知道闫学晶为什么抱怨日子过得紧巴巴了,她家三套房…

福建平子
2026-01-22 11:46:24
大选惊天反转!输家突然上位,赢家却被晾在一边,这波操作看懵了

大选惊天反转!输家突然上位,赢家却被晾在一边,这波操作看懵了

天气观察站
2026-02-17 07:44:26
官方:利物浦将评选队史最伟大球员;同时公布百大球星榜单

官方:利物浦将评选队史最伟大球员;同时公布百大球星榜单

懂球帝
2026-02-16 23:21:06
飞机懵了,高铁呆了,万万没想到,今年春运出风头的是绿皮火车

飞机懵了,高铁呆了,万万没想到,今年春运出风头的是绿皮火车

深度报
2026-02-15 23:00:51
2026-02-17 11:52:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7288文章数 550关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

蔡磊一家三口出镜送祝福 儿子将手放在他手上轻轻抚摸

头条要闻

蔡磊一家三口出镜送祝福 儿子将手放在他手上轻轻抚摸

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春晚三大感人瞬间:周深于和伟上榜

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

本地
游戏
数码
时尚
旅游

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

快回来玩吧!《战地6》团队“指甲都要咬断了”

数码要闻

苹果AirPods Pro 2/3、AirPods 4迎来新公测版固件8B5034f

今年春天最流行的4组配色,过年穿时髦又高级!

旅游要闻

和县光影秀点亮新春佳节

无障碍浏览 进入关怀版