网易首页 > 网易号 > 正文 申请入驻

让AI自己“动手刷”手机!清华、智谱团队推出MobileRL框架,9B模型实现SOTA

0
分享至


从早上睁眼到深夜入睡,我们的生活、工作几乎被手机“全程托管”——聊天、回领导消息、查天气、看日程、订外卖……手机早已不是简单的通讯工具,而是我们已经离不开的特殊存在。

但这些操作往往重复又琐碎:打开 App、切换界面、输入信息,既耗时又繁杂。如果 AI 能像人类一样操作手机,许多任务就能自动完成,大大提高效率。

于是,这带来了一个关键问题:我们该如何训练 AI 真正“用得了”手机呢?

为此,来自清华大学和智谱的研究团队提出了一个全新的研究框架——MobileRL。它让视觉语言模型(VLM)不仅能理解人类指令,还能在真实移动环境中自主完成复杂操作任务,为打造真正实用的智能助手迈出了关键一步


论文链接:
https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf
为什么手机 Agent 这么难做?

视觉语言模型(VLM)最近在图形用户界面(GUI)交互中展现出作为通用智能体(Agent)的潜力。例如,它们能够实现网页端和移动端的零样本交互。然而,这些方法依赖于静态专家演示来学习单个动作映射,但在新环境中部署时会遇到误差累积的问题。

推理模型训练的成功推动了“可验证奖励”的强化学习范式的普及。单步专家数据集自然地提供规范的动作标签。因此,基于专家演示的单步强化学习既直接又实用。然而,这种方法本质上存在局限。它无法在完整的动作序列上进行交互和训练。

在 GUI Agent 领域,也有一些关于在线学习的探索。但是,这些方向仍然未能系统地解决,在移动模拟器中如何有效减少探索成本的问题。

要训练出在交互式移动环境中既稳定又高效的 GUI Agent,仍然面临三大现实挑战。

首先,未经调优的基础模型难以稳定地产生符合格式的操作命令,尤其是在处理复杂的、特定于 GUI 的指令时。同时,移动仿真过程中的高成本和延迟,使得正确执行的回合非常罕见。这进一步导致了早期探索阶段的数据利用效率较低;高成本与高延迟共同作用,使得成功的回合更加稀少,进一步降低了早期探索的样本效率。

其次,许多任务需要多次尝试才能成功,而有些任务始终无法解决。在这种情况下,盲目采样不仅会浪费大量计算资源,还未能充分利用那些稀缺但具有重要信息价值的高难度成功案例。

最后,部署和管理数百个并发的移动实例是一项资源密集型工作。这种部署方式不仅难以在不同设置下进行复现,而且通常会导致较低的采样吞吐量。这最终限制了在线强化学习的规模和效率。

目前,大多数方法仍局限于离线强化学习环境或单回合交互。在线或多回合强化学习在交互式、自适应移动 GUI Agent 中的潜力仍然缺乏系统性的探索。

MobileRL:教会 AI 使用手机

MobileRL 框架旨在增强视觉语言 Agent 在移动 GUI 任务中的表现,包括三个组成部分:在专家演示数据上的监督微调、迭代推理强化(一个迭代预热阶段)和难度自适应 GRPO(DGRPO)


图|Agent 完成的示例移动任务,能够根据人类指令,在学术基准测试和真实应用场景中自动执行任务。

由于在虚拟设备环境中的采样效率较低,初步实验发现,直接从基础模型开始进行在线强化学习会非常耗时。因此,研究团队首先遵循 AndroidLab 采用的数据收集协议,获取专家演示数据,并将其用于监督微调。接下来,通过推理增强的迭代预热阶段,在专家数据集上构建出更强的推理初始化器。随后,再应用 DGRPO 以实现高效的在线优化。

在观察空间中,他们采用双重表示方式:当前屏幕截图和压缩的可扩展标记语言(Extensible Markup Language,XML)。在大多数情况下,Agent 可以通过 XML 中的坐标来指定点击位置,从而避免脆弱的像素级 grounding;。当涉及图形提示或 XML 信息不完整时,屏幕截图则提供了必要的视觉细节。

人工收集的、针对移动应用的专家演示数据集通常只包含最终的动作序列,而忽略了中间的推理过程。仅使用这种“黑盒”轨迹进行训练会导致生成的策略不透明,同时也使得大量未标注的任务无法被充分利用。他们用现成的 Instruct 模型来激活专家数据,并从原始演示数据中引导出一个推理增强的训练集,从而获得结构化且透明的策略初始化。

他们的在线强化学习阶段引入了难度自适应组相对策略优化(DGRPO),它是组相对策略优化(GRPO)的扩展方法,能够根据实例的难度进行优化调整,并明确奖励解决方案的执行效率。

首先,难度自适应正向回放(DAPR)维护一个经过筛选的高质量困难轨迹缓冲区,并将其与新的在线策略样本进行平衡。在稀疏奖励的移动环境中,困难任务的成功非常罕见,但信息量极高。通过回放这些成功案例,可以增强其学习信号,并在一定程度上稳定策略的更新过程。

此外,失败课程过滤(FCF)通过在线难度统计,降低那些难以解决任务的采样权重,从而将计算资源重新分配给具有挑战性但可行的任务

最后,最短路径奖励调整(SPA)会根据完成路径的长度来调整奖励函数,对较短的解决方案赋予更高的奖励


图|左:在 AndroidWorld(Rawles 等,2024)和 AndroidLab(Xu 等,2024)上的成功率(SR);阴影区域表示 MobileRL 带来的提升。右侧:MobileRL 在训练集上的轨迹级奖励,并附有 95% 的置信区间(CI),显示出一致的性能增长。

以小搏大,9B 模型实现 SOTA

研究团队在 AndroidWorld 和 AndroidLab 基准测试中,使用 Qwen2.5-VL-7B 和 GLM-4.1V-9B-Base 作为基础模型,对 MobileRL 进行了评估。该方法的性能显著优于闭源模型(例如,GPT-4o:34.5% / 31.2%)。

以 Qwen2.5-VL-7B 为基础模型时,MobileRL 在 AndroidWorld 上达到了 72.0%,在 AndroidLab 上为 42.5%,超越了现有 SOTA 方法。使用 GLM-4.1V-9B 作为基础模型时,性能进一步提升,AndroidWorld 上的成功率为 75.8%,AndroidLab 为 46.8%,在所有模型中实现 SOTA 性能。


图|在 AndroidWorld 和 AndroidLab 基准测试中,闭源和开源模型在移动 GUI 交互任务中的成功率(SR)。AutoGLM-Mobile-9B 在这两个基准测试中均达到了最高性能。

为了评估 MobileRL 框架及 DGRPO 算法中各个组件的贡献,他们还进行了消融实验。他们以 Qwen2.5-VL-7B-Instruct 和 GLM-4.1V-9B-Base 作为基础模型,逐步应用 SFT、IRR 和 DGRPO。随后,他们以经过 SFT 和 IRR 训练的 Qwen2.5-VL-7B-Instruct 为初始模型,详细分析了 DGRPO 每个组成部分的影响。


图|MobileRL 框架的消融实验,逐步应用 SFT、IRR 和 DGRPO。对于 GLM-4.1V-9B 系列模型,训练基于 GLM-4.1V-9B-Base,但他们与 GLM-4.1V-9B-Thinking 进行对比,因为基础模型无法合理地衡量移动 Agent 的得分。


图|消融实验结果:(a)训练过程中轨迹级别的奖励;(b)不同模型变体在 AndroidWorld 上的测试性能。所有模型均仅在 AndroidWorld 的训练集上进行训练,实验结果取三次运行的平均值,以减少随机性带来的影响。

SFT 阶段显著提升了模型的初始性能,在基准测试中平均提高了 20–25%;而 IRR 带来了约 5–10% 的额外改进。最终,DGRPO 阶段实现了最高的整体成功率。Qwen2.5-VL 的总提升超过 40%,GLM 的提升则超过 30%。这些结果突出了三部分机制之间的互补性,并展示了将监督微调、迭代推理精化与强化学习结合起来,在提升 Agent 能力方面的有效性。

总而言之,MobileRL 在多个基准测试中均展现出卓越的性能表现,这为未来的 Agent 研究提供了强有力的工具与方法支持。

此外,研究团队还将 MobileRL 的训练流程整合进了 AutoGLM 产品中,进一步拓展了该方法的实际应用前景。

整理:小羊

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3年9100万!骑士签约神塔赚大了,哈登一来,他从蓝领变成高级货

3年9100万!骑士签约神塔赚大了,哈登一来,他从蓝领变成高级货

球盲姐
2026-02-21 17:05:54
养伤175天!巴萨21岁金童回来了:第2次重伤复出 队友祝贺

养伤175天!巴萨21岁金童回来了:第2次重伤复出 队友祝贺

叶青足球世界
2026-02-20 20:30:47
1954年的中央会议上,周恩来特意叮嘱陈赓:“你带枪坐在高岗身后”

1954年的中央会议上,周恩来特意叮嘱陈赓:“你带枪坐在高岗身后”

寄史言志
2026-01-27 11:08:17
李亚鹏前妻带娃回村过年,山里盖三层小楼,院子大到能遛弯

李亚鹏前妻带娃回村过年,山里盖三层小楼,院子大到能遛弯

松林侃世界
2026-02-20 20:37:08
内马尔承认年底考虑退役!巴萨签新星达协议!卡里克想长留曼联!

内马尔承认年底考虑退役!巴萨签新星达协议!卡里克想长留曼联!

足球侦探
2026-02-21 20:06:11
英国议员加入乌军亚速旅,国际奥委会拒绝给俄罗斯运动员发手机

英国议员加入乌军亚速旅,国际奥委会拒绝给俄罗斯运动员发手机

史政先锋
2026-02-20 14:26:29
“岳父岳母要来长住,我坚决不同意”引热议,说出已婚男人的清醒

“岳父岳母要来长住,我坚决不同意”引热议,说出已婚男人的清醒

夜深爱杂谈
2026-02-20 23:18:27
中俄舰艇都到了,美军还打不打伊朗?特朗普一句话,信号不简单

中俄舰艇都到了,美军还打不打伊朗?特朗普一句话,信号不简单

钦点历史
2026-02-21 14:31:50
7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

极目新闻
2026-02-20 23:13:15
你见识过那些父母的无效人脉吗?网友:简单问题硬是给复杂化

你见识过那些父母的无效人脉吗?网友:简单问题硬是给复杂化

另子维爱读史
2026-02-09 20:07:56
为什么北京的地铁总感觉那么挤,上海地铁却不是很挤?

为什么北京的地铁总感觉那么挤,上海地铁却不是很挤?

小李子体育
2026-02-21 15:51:23
48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

铁锤简科
2026-02-21 00:01:59
一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

台州交通广播
2026-02-20 12:14:08
东北人,为啥都爱打扮和穿名牌?

东北人,为啥都爱打扮和穿名牌?

冰咖
2026-02-19 15:17:03
东契奇轰38+11仍无缘今日最佳!对不起,你碰到创纪录的华子了

东契奇轰38+11仍无缘今日最佳!对不起,你碰到创纪录的华子了

世界体育圈
2026-02-21 14:08:27
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
儿子被外婆打了一下,老公停顿了5秒转身说:我们这就回自己家

儿子被外婆打了一下,老公停顿了5秒转身说:我们这就回自己家

黄小乖的日记
2026-02-21 11:21:01
妈祖事件后续发酵!福建老板集体放话,今后绝不与姓许的合作往来

妈祖事件后续发酵!福建老板集体放话,今后绝不与姓许的合作往来

一盅情怀
2026-02-21 13:45:26
载8名中国游客汽车在贝加尔湖落水,7名中国游客溺亡

载8名中国游客汽车在贝加尔湖落水,7名中国游客溺亡

界面新闻
2026-02-20 19:27:17
“这是输了?”得知关税被判违法,特朗普暴怒 在场州长:感觉他头都气炸了

“这是输了?”得知关税被判违法,特朗普暴怒 在场州长:感觉他头都气炸了

红星新闻
2026-02-21 12:42:33
2026-02-21 20:31:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

美大法官"大战"总统撕开财政千亿黑洞 特朗普闪电反击

头条要闻

美大法官"大战"总统撕开财政千亿黑洞 特朗普闪电反击

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
健康
亲子
数码
艺术

2026纽约秋冬时装周,在春天开启美的新故事!

转头就晕的耳石症,能开车上班吗?

亲子要闻

直接萌化了!小宝宝看着爸爸吃面条的样子心想:等你老了的

数码要闻

开盖版Ryzen 7 9850X3D来了!价格小贵 性能释放暴增20W

艺术要闻

任辉 作品选集

无障碍浏览 进入关怀版