网易首页 > 网易号 > 正文 申请入驻

霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来

0
分享至



GUI 智能体最近卷到什么程度了?

Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:

  • 「知识缺失」难题:基础大模型对 GUI 领域的认知依然薄弱 —— 生僻图标、小众应用的操作逻辑等需要补足。
  • 「纸上谈兵」困境:离线训练数据与真实交互环境存在鸿沟,离线看似合理的动作,一到在线任务就翻车。
  • 「多模型协同」障碍:尽管视觉定位、任务规划等领域专家模型各有突破,但多模型协作往往依赖复杂框架,协同成本高。

现在,蚂蚁带来 UI-Venus-1.5:一个遵循「高性能,实战派」设计理念的端到端 GUI 智能体。单个模型即可统一处理定位(Grounding)、移动端(Mobile)与网页端(Web)三大场景,全面支持 40+ 主流中文 App,让 AI 真正走进用户生活。



  • 报告标题:UI-Venus-1.5 Technical Report
  • 技术报告:https://arxiv.org/abs/2602.09082
  • 代码:https://github.com/inclusionAI/UI-Venus
  • 模型:https://huggingface.co/collections/inclusionAI/ui-venus
  • 主页链接:https://ui-venus.github.io/UI-Venus-1.5/





UI-Venus-1.5 构建了一条清晰、系统的训练路径:

通过中期训练(Mid-Training)系统性补足大模型在 GUI 领域的知识短板;利用在线强化学习(Online RL)弥合离线训练与在线执行之间的鸿沟;最终采用模型融合(Model Merge)集成多个领域专家模型的能力。



01 中期训练(Mid-Training):

30+ 数据源、10B tokens 锻造 GUI 原生大脑

通用视觉语言模型(VLM/MLLM)并不天然理解 GUI。面对高度结构化、蕴含复杂交互逻辑的用户界面,它们往往缺乏「原生表征能力」—— 看得到,却看不懂;能描述,但不会用。

因此,UI-Venus-1.5 战略性地引入中期训练(Mid-Training)阶段,旨在将通用的 VLM 逐步锻造为真正「懂 GUI」的原生基础模型。UI-Venus-1.5 构建了一个全面、统一的 GUI 中期训练语料库:

  • 整合30+公开及内部数据源(包含 Mind2Web、ShowUI、AITW 等),总规模高达10B tokens
  • 精心设计了任务策略平衡,覆盖语义感知、GUI-VQA、元素定位、导航推理等关键维度。



这一阶段的目标并非追求「看起来会操作」,而是系统性地塑造四项核心基础能力:

  1. 精准的导航与定位:建立从自然语言指令到界面动作或坐标的端到端精确映射。
  2. 严谨的顺序推理:学习将高层目标分解为逻辑清晰、可执行的子步骤。
  3. GUI-VQA:理解控件语义、功能描述与复杂的布局逻辑。
  4. 敏锐的精细感知:无需 OCR 即可识别图标、检测控件状态和理解视觉提示。

02 打造领域专家(Offline RL):

驱动 Grounding / Mobile / Web 专项突破

UI-Venus-1.0 通过在高精领域数据 RFT 技术路线,在定位(Grounding)和移动端导航(Mobile Navigation)两大领域达到了 SOTA 水平。UI-Venus-1.5 在继承该技术路径的基础上,进一步优化专家模型的设计与应用方式:



  • 定位能力:UI-Venus-1.0 在目标元素不存在时会猜测定位,虽在 ScreenSpot-Pro、UI-Vision 等基准上得分高,但易引发「幻觉」。为此,UI-Venus-1.5 引入了关键的「拒答」能力。当模型判定目标元素不存在时,将明确返回[-1, -1],表示无法定位。
  • 通用导航能力:为统一移动端与 Web 端操作,UI-Venus-1.5 扩展动作空间,新增鼠标悬停(Hover)、双击(DoubleClick)和快捷键(Hotkey)以适配 Web 交互,同时提供移动端 - 中 / 英文、Web 端 - 英文等场景的优化 Prompt 模板,实现跨语言的高效适配。

03 在线强化学习(Online RL):

从「动作做对」到「任务完成」

在 Mid-Training 和 Offline-RL 阶段,模型在单步动作(Action-level)准确率上已取得显著提升。然而,端到端的轨迹级(Trace-level)任务成功率却并未同步增长。

根本原因在于,这两个阶段的训练信号聚焦「动作是否正确」,而非直接优化「任务是否完成」—— 两者通常正相关,但并不等价。尤其在数据有限时,动作准确率易与任务成功率脱节,导致「动作对、任务错」的精度错配现象。Mid-Training 和 Offline-RL 主要优化 Action-level 的监督信号或回报,缺乏对 Trace-level 成功的直接对齐。因此,单步动作的准确累积,并不必然导向整体任务的完成。



UI-Venus-1.5 引入在线强化学习(Online RL),聚焦移动端与 Web 端核心场景,借鉴 T-GRPO 等思路,在真实环境中执行完整轨迹 Rollout 与奖励计算,以「任务是否成功」作为核心优化目标

04 模型融合(Model Merge):

一个模型,贯通 Grounding / Mobile / Web

当前很多 GUI Agent 采用「多模型协同」路线,即针对不同功能或场景训练独立的专家模型。虽能短期提升单项性能,一旦落地,往往演变为复杂的协同框架,成本激增。

UI-Venus-1.5 采用「先分后合」策略:先分别训练 Grounding、Mobile、Web 三个领域的专家模型(基于 Offline-RL 和 Online-RL),将各自能力练至极致,再通过 Model Merge 技术融合为统一的端到端模型,以降低部署成本,并在合并中最大限度保持各领域性能。

为克服线性合并的局限,UI-Venus-1.5 采用更稳健的TIES-Merging技术,即「先筛选,再合并」。该方法成功融合出统一模型,在ScreenSpot-Pro、AndroidWorld 和 WebVoyager三大跨领域基准上,实现了更均衡、更高效的多能力整合。

05 DaaS:

一个入口管理所有设备,构建大规模在线训练环境



实践 Online-RL 才发现:瓶颈往往不在算法,而在异构设备环境 ——Android、浏览器、容器使用不同协议(ADB/CDP/SSH),叠加网络隔离与安全限制,直接对接难以维护。

为此,蚂蚁集团搭建了统一的设备即服务(DaaS)层

  • 统一协议:将 ADB、CDP 等封装为可扩展插件,上层按需调用。
  • 高并发稳态:基于内部二次哈希路由与协程并发模型,支撑大规模设备长连接与高频请求。
  • 开箱即用:配套多语言 SDK,封装认证、设备申请 / 释放与常用操作。

依托 DaaS 的强大能力,上层训练框架得以像调用标准服务一样灵活使用设备资源 ——千台级异构设备稳定接入,支持超千并发的在线强化学习任务,高效支撑 UI-Venus-1.5 的大规模在线训练与真实场景部署。

06 全方位评测:

真实与标准环境双重验证

为全面评估 UI-Venus-1.5 的通用性与鲁棒性,评测覆盖三大维度:

Grounding 能力(7 个基准):



在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等标准测试集上,UI-Venus-1.5 相比 1.0 版本显著提升,且全面超越同规模模型

Mobile 端 + Web 端 (在线真实环境):





在 AndroidWorld、AndroidLab、VenusBench-Mobile 真实场景中,UI-Venus-1.5 于多样化 GUI 智能体任务上均取得了全面 SOTA 的性能

07 适配 40+ 主流中文 App,融入日常数字生活

UI-Venus-1.5 同时深度聚焦中文用户的真实使用习惯,全面支持 40 余款主流中文应用,涵盖出行、社交、娱乐、购物、生活服务等核心场景,真正实现「听得懂指令、看得清界面、做得对操作」。

无论是「在高德里叫一辆去景区的快车」、「在携程订明天北京到上海的机票」、「把这条微博转发并附评论」,还是「在网易云播放陈奕迅的最热歌曲」,UI-Venus-1.5 均能在真实设备环境中精准理解用户意图,并流畅、准确地完成各类操作。不依赖虚构演示,而是直接运行于用户每日高频使用的 App 中,直面现实场景中的任务挑战。这标志着 UI-Venus-1.5 向成为真正「可用的智能助手」迈出了关键一步。


https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 1: 打开七猫免费小说,将小说脑洞榜前三名都加入书架


https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 2: 打开微博,搜索杭州天气,并根据天气进行评论


https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 3: 打开喜马拉雅,帮我播放疯狂动物城2,设置列表循环播放

结语:UI-Venus-1.5 的路线更像「产品化 GUI Agent」的正确打开方式

UI-Venus-1.5 的价值不在单项指标的炫技,而在于构建了一个更可训练、可部署、可扩展的端到端系统:

  • 中期训练夯实 GUI 原生能力
  • 领域后训练专精 Grounding/Mobile/Web
  • 在线强化学习提升最终任务成功率
  • 模型融合实现单模型跨域通用

UI-Venus-1.5 致力于打造能在手机 / 网页上稳定干活的 AI 助手

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“凌晨3点候补成功,1700元车票作废”,12306可以怎么改进?

“凌晨3点候补成功,1700元车票作废”,12306可以怎么改进?

澎湃新闻
2026-02-24 21:00:05
钟丽缇又老又胖

钟丽缇又老又胖

动物奇奇怪怪
2026-02-24 19:43:26
医生提醒:身体出现这4个症状,可能是身体缺乏叶酸了,及...

医生提醒:身体出现这4个症状,可能是身体缺乏叶酸了,及...

袁医生课堂
2026-02-24 09:00:08
2002年,东北第一杀手李正光被执行死刑,临走要求:想喝一碗白酒

2002年,东北第一杀手李正光被执行死刑,临走要求:想喝一碗白酒

标体
2026-02-24 23:55:22
喜讯!于汉超本赛季中超将首次以全新身份亮相申花队,值得期待

喜讯!于汉超本赛季中超将首次以全新身份亮相申花队,值得期待

篮球看比赛
2026-02-24 16:09:45
刚刚!广东定调未来10年!钱往哪流?哪些行业要爆发?大白话解读

刚刚!广东定调未来10年!钱往哪流?哪些行业要爆发?大白话解读

爱看剧的阿峰
2026-02-24 16:22:35
45岁张柏芝在上海街边被偶遇,她穿着羽绒服,脸蛋圆润,好漂亮

45岁张柏芝在上海街边被偶遇,她穿着羽绒服,脸蛋圆润,好漂亮

草莓解说体育
2026-02-25 02:51:18
全国统一执行!3月1日起,公职人员戴上紧箍咒,老百姓迎来大便利

全国统一执行!3月1日起,公职人员戴上紧箍咒,老百姓迎来大便利

墨兰史书
2026-02-24 22:41:18
特斯拉第三代家庭充电桩单相版上线,支持7kW额定功率

特斯拉第三代家庭充电桩单相版上线,支持7kW额定功率

IT之家
2026-02-24 11:47:12
孙贵璋:上海市人大常委会原副主任

孙贵璋:上海市人大常委会原副主任

蓝色海边
2026-02-25 02:45:17
尉健行说:美国人选领导是5选1,我们选干部却是1对1,这怎么行?

尉健行说:美国人选领导是5选1,我们选干部却是1对1,这怎么行?

老谢谈史
2026-02-24 23:20:42
墨西哥贩毒集团报复行动已致73死,目前未收到中国公民受伤信息,骚乱地华人:毒贩烧掉汽车拦路,街上空无一人

墨西哥贩毒集团报复行动已致73死,目前未收到中国公民受伤信息,骚乱地华人:毒贩烧掉汽车拦路,街上空无一人

极目新闻
2026-02-24 18:14:46
7场5球1助!皇马新大罗却遭狠批,19岁就散步,难接班姆巴佩

7场5球1助!皇马新大罗却遭狠批,19岁就散步,难接班姆巴佩

阿泰希特
2026-02-24 14:15:02
春晚已经播完8天了,这5人成最大受益者,有人从低谷成功翻身!

春晚已经播完8天了,这5人成最大受益者,有人从低谷成功翻身!

叨唠
2026-02-24 17:38:34
煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

阿龙美食记
2026-02-23 17:09:09
陈敏儿两度丧亲后现身,白发示人状态,40年友情支撑

陈敏儿两度丧亲后现身,白发示人状态,40年友情支撑

何侦爱体育
2026-02-25 03:29:43
商竣程惨败被吐槽WTA勇闯ATP的即视感,深度分析其当下技术困境

商竣程惨败被吐槽WTA勇闯ATP的即视感,深度分析其当下技术困境

网球之家
2026-02-24 22:28:32
皇马辱华球员摊上大事!全球媒体关注:被迫道歉 毫无诚意

皇马辱华球员摊上大事!全球媒体关注:被迫道歉 毫无诚意

叶青足球世界
2026-02-24 15:23:15
13胜7平,马竞欧冠淘汰赛主场比赛近29年不败

13胜7平,马竞欧冠淘汰赛主场比赛近29年不败

懂球帝
2026-02-25 04:26:07
罗纳尔多和维埃里亲临圣西罗,并获赠国米纪念球衣

罗纳尔多和维埃里亲临圣西罗,并获赠国米纪念球衣

懂球帝
2026-02-25 04:15:08
2026-02-25 05:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

健康
手机
旅游
教育
时尚

转头就晕的耳石症,能开车上班吗?

手机要闻

苹果发布iOS 26.4 Beta 2系统更新,液态玻璃设计有新变化!

旅游要闻

避寒+冰雪双爆!5.96亿人出游,解锁新春新玩法

教育要闻

家长求大家不要举报了,让高三初三的孩子顺利提前开学吧!

阔腿裤失宠了?这4条裤子承包你整个春天的时髦!

无障碍浏览 进入关怀版