网易首页 > 网易号 > 正文 申请入驻

136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体预测

0
分享至


基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。

该方法通过预定义奖励函数规避人工标注成本,如 DeepSeek-R1 在数学求解中的成功应用,以及多模态领域在图像定位等任务上的性能突破(通常使用 IOU 作为规则 reward)。

vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发,首次将基于规则的强化学习(RL)应用到了 GUI 智能体领域。

  • 论文标题:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
  • 论文地址:https://arxiv.org/abs/2503.21620
  • 项目主页:https://yxchai.com/UI-R1/
  • 项目代码:https://github.com/lll6gg/UI-R1

简介

本研究创新性地将规则 RL 范式拓展至基于低级指令的 GUI 动作预测任务。具体实现中,多模态大语言模型为每个输入生成包含推理标记和最终答案的多条响应轨迹,在训练和测试时的 prompt 设计如下:

随后通过我们设计的奖励函数评估每条响应,并采用 GRPO 等策略优化算法更新模型参数。该奖励函数包含三个维度:

  • 动作类型奖励:根据预测动作与真实动作的匹配度计算;
  • 动作参数奖励(聚焦点击操作):通过预测坐标是否落入真实边界框评估;
  • 格式规范奖励:评估模型是否同时提供推理过程和最终答案。

数据制备方面,仅依据难度、多样性和质量三原则筛选 130 余个移动端训练样本,展现出卓越的数据效率。实验表明,UI-R1 在桌面端和网页平台等跨领域(OOD)数据上均取得显著性能提升,印证了规则 RL 处理跨领域复杂 GUI 任务的潜力。

方法:强化学习驱动的 GUI 智能体

我们提出的 UI-R1 模型采用了三个关键创新:

1. 独特的奖励函数设计

研究团队设计了专门针对 GUI 任务的奖励函数:R = R_T + R_C + R_F

R_T:行为类型奖励(点击、滑动、返回等)

R_C:坐标准确度奖励(点击位置是否准确)

R_F:格式奖励(输出的格式是否正确)

2. 精心筛选的高质量数据

与其使用大量普通数据,我们提出采用了「质量优先」的策略,从三个维度精选训练数据:

质量:选择标注准确、对齐良好的样本

难度:专注于基础模型难以解决的「困难」样本

多样性:确保涵盖各种行为类型和元素类型

最终只使用了136 个高质量样本,比传统方法少了几百甚至上千倍,就能够训练得到比 SFT 方式更优的效果。

3. 群体相对策略优化算法

UI-R1 采用了一种名为 GRPO(Group Relative Policy Optimization)的算法。这种算法不需要额外的评论家模型,而是通过比较同一问题的多个不同回答来学习什么是「好」的回答。

实验结果

1. 域内效果提升明显

在 AndroidControl 基准测试上,UI-R1-3B 与基础模型 Qwen2.5-VL-3B 相比:

  • 行为类型准确率提高了 15%
  • 定位准确率提高了 10.3%

2. 域外泛化能力惊人

UI-R1 在从未见过的桌面 PC 端和网页界面上表现同样出色:

  • 在 ScreenSpot 测试中,UI-R1-3B 的平均准确率达到78.6%,超越 CogAgent-18B 等大模型。
  • 在专业高分辨率环境 ScreenSpot-Pro 测试中,UI-R1-3B 达到17.8%的平均准确率,提升了与使用 76K 数据训练的 OS-Atlas-7B(18.9%)性能相当。

分析

我们关于 UI-R1 做了一系列分析,研究发现:在 GRPO 的强化学习微调的方式下,数据质量比数据数量重要

  • 困难样本更有价值:按难度选择的方法比随机选择的性能显著更好。
  • 数据增长收益递减:随着训练数据量增加,性能提升趋于平缓。
  • 精选小数据集比大数据集更有效:三阶段数据选择方法优于使用整个数据集或者随机筛选相同数量的子集。

此外,我们还发现动作预测的难度与思考的长度之间存在关联:思考长度越长,准确率越低(说明问题越难),但通过 UI-R1 形式的强化学习微调之后,对于难样本的成功率提升也更加明显。

这一现象证明了强化微调的价值,通过让模型自主思考来提升难样本的准确率,这个特性是之前的监督微调所难以获得的。

未来探索方向

UI-R1 初步探索了大模型强化学习和推理技术在 GUI Agent 领域的应用。下一步,我们将尝试将 UI-R1 从 RFT 拓展到 SFT + RFT 的组合,实现大规模 UI 数据下统一的思考、决策、规划的 GUI Agent 大模型

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
康师傅“再来一瓶”多店不兑换!消费者跑多家门店皆失败,怒斥:没能力就别做活动

康师傅“再来一瓶”多店不兑换!消费者跑多家门店皆失败,怒斥:没能力就别做活动

政法频道
2026-04-11 19:53:45
日媒:44%的访日中国游客资产额超680万元

日媒:44%的访日中国游客资产额超680万元

随波荡漾的漂流瓶
2026-04-11 17:16:26
定了!公积金提取限制全面取消,2026年4月1日起执行

定了!公积金提取限制全面取消,2026年4月1日起执行

甜到你心坎
2026-04-10 06:36:20
伊能静自曝与秦昊首次见面时,秦昊正处在热恋期,与当时的女朋友“目中无人”“吃饭都是喂的”

伊能静自曝与秦昊首次见面时,秦昊正处在热恋期,与当时的女朋友“目中无人”“吃饭都是喂的”

花样TV
2026-04-11 17:41:28
欠中国500亿没能力偿还,准备拿小岛抵债?比澳门面积大2倍

欠中国500亿没能力偿还,准备拿小岛抵债?比澳门面积大2倍

角落的隐藏美景
2026-04-11 05:03:19
法国对“巴黎的伤疤”正式下手!中国方案惊艳但落选了

法国对“巴黎的伤疤”正式下手!中国方案惊艳但落选了

GA环球建筑
2026-04-10 23:30:32
卡梅隆·迪亚兹消失11年后,突然接了部80年代烂片续集

卡梅隆·迪亚兹消失11年后,突然接了部80年代烂片续集

娱圈观察员
2026-04-12 08:43:47
被制裁1个月后,巴拿马主动喊话中国,总统亲自服软,却为时已晚

被制裁1个月后,巴拿马主动喊话中国,总统亲自服软,却为时已晚

小正说娱乐
2026-04-12 08:24:41
坐月子时,小姑子拿走娘家送的补品,婆婆怒道:谁教你的?我吗?

坐月子时,小姑子拿走娘家送的补品,婆婆怒道:谁教你的?我吗?

清水家庭故事
2026-04-11 08:13:01
小车被砸致2人死亡,东莞最新披露

小车被砸致2人死亡,东莞最新披露

南方都市报
2026-04-11 11:18:23
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
印度曾反对中国建雅鲁藏布江水电站,现才彻底明白,真不是一般精

印度曾反对中国建雅鲁藏布江水电站,现才彻底明白,真不是一般精

掠影后有感
2026-04-06 11:40:04
本来穷得好好的,非要闯一闯,结果成老赖!半生努力换一身负债

本来穷得好好的,非要闯一闯,结果成老赖!半生努力换一身负债

夜深爱杂谈
2026-04-11 11:42:57
这是青年时期毛岸青,这张照片眉眼神态极像母亲杨开慧

这是青年时期毛岸青,这张照片眉眼神态极像母亲杨开慧

乡野小珥
2026-04-11 18:37:43
特朗普称并不在意美伊谈判能否达成协议

特朗普称并不在意美伊谈判能否达成协议

财联社
2026-04-12 07:19:03
揭秘顶级牛散锁仓的8只龙头股,持股待涨,看看你踩中风口没?

揭秘顶级牛散锁仓的8只龙头股,持股待涨,看看你踩中风口没?

慧眼看世界哈哈
2026-04-11 21:44:12
新型啃老正在流行,61岁的大姐哭诉:陪伴式孝顺是我退休后的噩梦

新型啃老正在流行,61岁的大姐哭诉:陪伴式孝顺是我退休后的噩梦

烙任情感
2026-04-11 08:27:06
美国碰了一鼻子灰

美国碰了一鼻子灰

牛弹琴
2026-04-12 08:07:17
释放明确信号,外媒:哈里斯称正在考虑参加2028年美国大选

释放明确信号,外媒:哈里斯称正在考虑参加2028年美国大选

环球网资讯
2026-04-11 10:52:11
罗马诺:罗伯逊已与热刺达成口头协议,若没降级将在今夏加盟

罗马诺:罗伯逊已与热刺达成口头协议,若没降级将在今夏加盟

懂球帝
2026-04-11 18:39:25
2026-04-12 09:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12729文章数 142623关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
数码
亲子
健康
本地

家居要闻

复古风格 自然简约

数码要闻

一加Ace 6至尊版蓄势待发:榨干天玑9500 性能大爆发

亲子要闻

萌娃躺在地上被旋转木马拖着走

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版