网易首页 > 网易号 > 正文 申请入驻

136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体预测

0
分享至


基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。

该方法通过预定义奖励函数规避人工标注成本,如 DeepSeek-R1 在数学求解中的成功应用,以及多模态领域在图像定位等任务上的性能突破(通常使用 IOU 作为规则 reward)。

vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发,首次将基于规则的强化学习(RL)应用到了 GUI 智能体领域。

  • 论文标题:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
  • 论文地址:https://arxiv.org/abs/2503.21620
  • 项目主页:https://yxchai.com/UI-R1/
  • 项目代码:https://github.com/lll6gg/UI-R1

简介

本研究创新性地将规则 RL 范式拓展至基于低级指令的 GUI 动作预测任务。具体实现中,多模态大语言模型为每个输入生成包含推理标记和最终答案的多条响应轨迹,在训练和测试时的 prompt 设计如下:

随后通过我们设计的奖励函数评估每条响应,并采用 GRPO 等策略优化算法更新模型参数。该奖励函数包含三个维度:

  • 动作类型奖励:根据预测动作与真实动作的匹配度计算;
  • 动作参数奖励(聚焦点击操作):通过预测坐标是否落入真实边界框评估;
  • 格式规范奖励:评估模型是否同时提供推理过程和最终答案。

数据制备方面,仅依据难度、多样性和质量三原则筛选 130 余个移动端训练样本,展现出卓越的数据效率。实验表明,UI-R1 在桌面端和网页平台等跨领域(OOD)数据上均取得显著性能提升,印证了规则 RL 处理跨领域复杂 GUI 任务的潜力。

方法:强化学习驱动的 GUI 智能体

我们提出的 UI-R1 模型采用了三个关键创新:

1. 独特的奖励函数设计

研究团队设计了专门针对 GUI 任务的奖励函数:R = R_T + R_C + R_F

R_T:行为类型奖励(点击、滑动、返回等)

R_C:坐标准确度奖励(点击位置是否准确)

R_F:格式奖励(输出的格式是否正确)

2. 精心筛选的高质量数据

与其使用大量普通数据,我们提出采用了「质量优先」的策略,从三个维度精选训练数据:

质量:选择标注准确、对齐良好的样本

难度:专注于基础模型难以解决的「困难」样本

多样性:确保涵盖各种行为类型和元素类型

最终只使用了136 个高质量样本,比传统方法少了几百甚至上千倍,就能够训练得到比 SFT 方式更优的效果。

3. 群体相对策略优化算法

UI-R1 采用了一种名为 GRPO(Group Relative Policy Optimization)的算法。这种算法不需要额外的评论家模型,而是通过比较同一问题的多个不同回答来学习什么是「好」的回答。

实验结果

1. 域内效果提升明显

在 AndroidControl 基准测试上,UI-R1-3B 与基础模型 Qwen2.5-VL-3B 相比:

  • 行为类型准确率提高了 15%
  • 定位准确率提高了 10.3%

2. 域外泛化能力惊人

UI-R1 在从未见过的桌面 PC 端和网页界面上表现同样出色:

  • 在 ScreenSpot 测试中,UI-R1-3B 的平均准确率达到78.6%,超越 CogAgent-18B 等大模型。
  • 在专业高分辨率环境 ScreenSpot-Pro 测试中,UI-R1-3B 达到17.8%的平均准确率,提升了与使用 76K 数据训练的 OS-Atlas-7B(18.9%)性能相当。

分析

我们关于 UI-R1 做了一系列分析,研究发现:在 GRPO 的强化学习微调的方式下,数据质量比数据数量重要

  • 困难样本更有价值:按难度选择的方法比随机选择的性能显著更好。
  • 数据增长收益递减:随着训练数据量增加,性能提升趋于平缓。
  • 精选小数据集比大数据集更有效:三阶段数据选择方法优于使用整个数据集或者随机筛选相同数量的子集。

此外,我们还发现动作预测的难度与思考的长度之间存在关联:思考长度越长,准确率越低(说明问题越难),但通过 UI-R1 形式的强化学习微调之后,对于难样本的成功率提升也更加明显。

这一现象证明了强化微调的价值,通过让模型自主思考来提升难样本的准确率,这个特性是之前的监督微调所难以获得的。

未来探索方向

UI-R1 初步探索了大模型强化学习和推理技术在 GUI Agent 领域的应用。下一步,我们将尝试将 UI-R1 从 RFT 拓展到 SFT + RFT 的组合,实现大规模 UI 数据下统一的思考、决策、规划的 GUI Agent 大模型

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩红一句“走个面儿”引全网声讨,这届观众不伺候了

韩红一句“走个面儿”引全网声讨,这届观众不伺候了

可达鸭面面观
2026-07-02 19:44:03
四部门:对不裁员、少裁员的参保企业,各地将继续实施稳岗返还政策,延续实施一次性扩岗补助政策

四部门:对不裁员、少裁员的参保企业,各地将继续实施稳岗返还政策,延续实施一次性扩岗补助政策

极目新闻
2026-07-02 18:41:45
赔偿1030万元!茉莉奶白被LV告了,成为第一个被奢侈品牌告的奶茶,很多上海人喝过……创始人表示将上诉

赔偿1030万元!茉莉奶白被LV告了,成为第一个被奢侈品牌告的奶茶,很多上海人喝过……创始人表示将上诉

扬子晚报
2026-07-02 21:06:30
首都保卫战打响后,普京发表全国讲话,俄罗斯对美西方发出通牒

首都保卫战打响后,普京发表全国讲话,俄罗斯对美西方发出通牒

策前论
2026-07-02 17:21:49
曼城官宣夏窗首签!安德森加盟,转会费1.16亿,队史最贵引援

曼城官宣夏窗首签!安德森加盟,转会费1.16亿,队史最贵引援

奥拜尔
2026-07-02 21:12:06
西安赛格商户老板疑被罚千万终跳楼,商场有无罚款权?

西安赛格商户老板疑被罚千万终跳楼,商场有无罚款权?

法度law
2026-07-02 16:58:22
一等就是9个小时!日本市民大排长龙中国相机 想当年国人排队抢索尼、佳能等

一等就是9个小时!日本市民大排长龙中国相机 想当年国人排队抢索尼、佳能等

快科技
2026-07-02 10:12:06
女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

网易新闻出品
2026-06-30 21:59:39
里子面子都丢了!管不住下半身的任素汐,一场演唱会撕下她的体面

里子面子都丢了!管不住下半身的任素汐,一场演唱会撕下她的体面

往史过眼云烟
2026-07-02 09:55:26
生阳气的3种食物,入伏前后多吃,把脾胃养好了,阳气也补足了

生阳气的3种食物,入伏前后多吃,把脾胃养好了,阳气也补足了

阿龙美食记
2026-07-01 13:22:59
于大宝:曾去过佛得角踢比赛;佛得角队里基本上都是葡萄牙人

于大宝:曾去过佛得角踢比赛;佛得角队里基本上都是葡萄牙人

懂球帝
2026-07-02 12:19:28
本届世界杯,让我们看到了美国的另一面

本届世界杯,让我们看到了美国的另一面

正解局
2026-07-02 16:28:27
西媒炮轰姆巴佩:拿皇马工资却在世界杯全倾全力,俱乐部明显留力

西媒炮轰姆巴佩:拿皇马工资却在世界杯全倾全力,俱乐部明显留力

童叔不飙车
2026-07-03 01:03:41
森保一:我不知道韩国民众对韩国队的评价如何,他们已经尽力了

森保一:我不知道韩国民众对韩国队的评价如何,他们已经尽力了

懂球帝
2026-07-03 03:11:07
脸都打肿!伊布当众怒喷阿森纳王牌:英格兰根本不配世界杯夺冠

脸都打肿!伊布当众怒喷阿森纳王牌:英格兰根本不配世界杯夺冠

澜归序
2026-07-03 03:53:39
多地党委主要领导调整,王健任台州市委书记

多地党委主要领导调整,王健任台州市委书记

上观新闻
2026-07-02 15:41:25
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
后悔也晚了?日本拉黑110家中企、停供芯片原料,中方反制却更快

后悔也晚了?日本拉黑110家中企、停供芯片原料,中方反制却更快

数字财经智库
2026-07-02 15:55:40
颐和园、天坛有蛇出没?专家回应“北京公园的蛇好像变多了”

颐和园、天坛有蛇出没?专家回应“北京公园的蛇好像变多了”

极目新闻
2026-07-02 22:36:35
地铁吐血女孩半月内多次收到病危通知单,当事人:自己的生命已经进入倒计时,但还是希望能够有人关注到自己手里仍在运行的公益项目

地铁吐血女孩半月内多次收到病危通知单,当事人:自己的生命已经进入倒计时,但还是希望能够有人关注到自己手里仍在运行的公益项目

潇湘晨报
2026-07-02 16:32:20
2026-07-03 04:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13419文章数 142686关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

商户在西安赛格商场坠亡 好友:他曾变卖门店发工资

头条要闻

商户在西安赛格商场坠亡 好友:他曾变卖门店发工资

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

健康
房产
手机
旅游
公开课

这4类消化病患者 吃粘食管住嘴

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

手机要闻

Android 17缺的原生应用锁功能,谷歌仍在持续打磨

旅游要闻

山间砂岩刻下盟约,曾经驿道地标胜景,如今只剩夯土空台一座!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版