网易首页 > 网易号 > 正文 申请入驻

一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大vivo出品

0
分享至

LearnAct团队投稿
量子位 | 公众号 QbitAI

想让手机AI像人类一样快速学习?

浙大与vivo联手突破!全新LearnAct框架仅需一次示范,就能教会AI完成复杂操作。

研究同步发布的LearnGUI基准,首次构建了面向移动端示范学习的评估体系,为AI智能体的实用化部署提供了关键技术支撑。

本文的作者来自浙江大学和vivo AI lab。本文的共同第一作者为浙江大学硕士生刘广义和赵鹏翔,主要研究方向为大语言模型驱动的GUI智能体技术。项目leader 为vivo AI lab 算法专家刘亮。本文的通信作者为浙江大学孟文超研究员。

手机GUI智能体:潜力与挑战并存

随着大型语言模型(LLMs)的快速发展,手机图形用户界面(GUI)智能体作为一种能够通过环境交互自主完成人类任务的前沿技术,正逐渐引发人们的关注。这些智能体通过观察手机屏幕(截图或UI Tree)感知手机状态,并生成相应的动作(如点击、输入、滑动等)来实现任务自动化。

然而,手机GUI智能体在实际部署场景中仍面临重大挑战。

移动应用和用户界面的多样性创造了许多长尾场景,截至2025年仅Google Play上就有168万个应用,现有智能体在长尾场景中难以有效执行任务。

目前主流的智能体构建方法依赖通用LLMs的内在能力或通过大量数据微调,但面对以数百万的移动应用及数十亿用户各自独特的任务需求,这些方法难以覆盖如此庞大的多样性,导致在未见场景中表现不佳,阻碍了手机GUI智能体的广泛应用。

从「示范中学习」的新范式

为解决上述限制,浙江大学和vivo AI lab联合提出了LearnAct多智能体框架LearnGUI基准致力于通过「少样本示范学习」解决手机GUI智能体的「长尾问题」。

与传统方法不同,这种基于示范的方法能够在少量用户提供的示例基础上实现稳健性和个性化,从而弥合预训练模型无法覆盖的“个性化鸿沟”。

实现结果表明,单个示范就能使Gemini-1.5-Pro的准确率从19.3%提升至51.7%,UI-TARS-7B-SFT的在线任务成功率从18.1%提升至32.8%。LearnAct多智能体框架和LearnGUI基准的提出为设计更加智能、更加个性化的手机 GUI 智能体开辟全新的方向,让我们的手机操作变得更加便捷、高效。

△LearnAct多智能体框架和LearnGUI基准致力于通过少样本示范学习解决手机GUI智能体的长尾问题

研究团队认识到,手机用户通常有独特且重复性的任务,同时具有内在变化性——例如智能家居控制、健康监测或企业软件。

这些场景结合了稳定模式和可变元素,通过用户特定的示范,该方法使智能体能够学习一致模式和适应策略,获取一般训练数据集无法覆盖的任务特定知识。

△LearnGUI数据集示例

LearnGUI:首个专为研究示范学习设计的基准

为填补高质量示范数据的空白,研究团队构建了LearnGUI基准。

这是首个专为研究移动 GUI 代理从少量示范中学习能力而设计的基准。基于AMEXAndroidWorld构建,LearnGUI 包含 2,252 个离线少样本任务和 101 个在线任务,均附带高质量人类示范。

△LearnGUI基准基本信息

该基准不仅支持对不同数量示范对代理性能影响的研究,还系统分析了示范任务与目标任务之间不同类型相似性(指令相似性、UI 相似性和动作相似性)对学习效果的影响。

△LearnGUI基准中的示范任务数量以及与目标任务相似度的分布情况

LearnAct:多智能体框架自动理解和利用示范

研究团队进一步提出了LearnAct多智能体框架,能够自动理解人类示范、生成指导性知识,并使用这些知识帮助手机GUI智能体推理未见场景。LearnAct由DemoParser、KnowSeeker和ActExecutor三个专业智能体组成。

△LearnAct框架的三个核心组件:DemoParser、KnowSeeker和ActExecutor

DemoParser智能体将原始的人类示范转化为结构化的示范知识。

它以原始动作序列(包括基于坐标的点击、滑动和文本输入等)以及相应的屏幕截图和任务指令作为输入。

随后,它利用视觉-语言模型生成具有语义描述性的动作描述,捕捉每个演示步骤的本质(例如,“在搜索页面上,点击搜索框,输入关键词”)。

基于这些描述,它构建了一个结构化的知识库,记录了高层次的动作语义。

△DemoParser工作流

KnowSeeker智能体是LearnAct框架中的检索组件,负责识别与当前任务上下文最相关的演示知识。

KnowSeeker充当由DemoParser生成的知识库与ActExecutor执行环境之间的桥梁,专精于高效地访问和选择针对特定任务最适用的知识。

△KnowSeeker工作流程

ActExecutor智能体是LearnAct框架中的执行组件,它将检索到的演示知识转化为目标环境中有效的操作。

ActExecutor是LearnAct流程的最终环节,它整合了用户指令、实时的图形用户界面感知信息以及演示知识,能够熟练的操作长尾场景下的手机界面。

当DemoParser创建结构化知识,而KnowSeeker检索到相关的演示后,ActExecutor则运用这些知识来解决实际任务。

△ActExecutor工作流

这种多智能体架构使LearnAct能够系统地从人类示范中提取、检索和利用知识,通过最少的示范实现对新场景的有效适应。

实验结果:示范学习显著提升性能

实验结果揭示了示范学习对手机GUI智能体能力的显著增强。

在离线评估中,单个示范就能大幅提升模型性能,最引人注目的是Gemini-1.5-Pro的准确率从19.3%提升至51.7%(相对提升198.9%)。

在复杂应用如CityMapper和To-Do应用中,性能提升尤为明显,分别从14.1%提升至69.4%和从17.4%提升至69.2%。

△不同模型在LearnGUI-Offline基准上的性能比较

在真实世界的在线评估中,LearnAct框架表现出色。

下表展示了在LearnGUI-Online基准上的在线评估结果,LearnAct 框架显著提升了所评估的两种模型的性能,其中 Qwen2-VL-7B从 9.9% 提升至 21.1%(+11.2%),UI-TARS-7B-SFT从 18.1% 提升至 32.8%(+14.7%)。

这些显著的提升表明,基于示范的学习方法能够有效地转化为现实交互场景中的优势。

△不同模型在LearnGUI-Online基准上的性能比较

下图中给出了LearnAct和Baseline方法在ExpenseDeleteMultiple任务上的表现。

在这样的长尾场景下,Baseline方法中GUI 智能体无法正确规划任务执行路径最终以失败告终。

相比之下只需要给出一个演示案例,LearnAct框架就能自动识别ExpenseDeleteMultiple任务中的执行模式并进行学习,面对相似的任务与不同的UI界面,顺利完成了操作任务。

△Qwen2-VL-7B作为基模型,LearnAct和Baseline在ExpenseDeleteMultiple任务上的表现

结论:示范学习引领手机GUI智能体发展新方向

这项研究提出的基于示范学习的新范式,为应对手机GUI智能体的长尾挑战开辟了新路径。

作为首个全面的示范学习研究基准,LearnGUI与LearnAct多智能体框架,有力证明了示范学习在开发更具适应性、个性化和实用性的手机GUI智能体方面的巨大潜力。

随着移动设备在现代生活中的广泛应用,这种能够从少量示范中高效学习的方法,为打造真正智能的手机助手奠定了坚实基础,让我们在现实世界中距离科幻电影中“J.A.R.V.I.S.”般的智能体验更近一步。

论文地址:
https://arxiv.org/abs/2504.13805
项目地址:
https://lgy0404.github.io/LearnAct/
GitHub:
https://github.com/lgy0404/LearnAct
HuggingFace:
https://huggingface.co/datasets/lgy0404/LearnGUI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

小影的娱乐
2026-03-26 13:45:58
中东局势加剧美国的信任危机,欧洲很受伤意见很大

中东局势加剧美国的信任危机,欧洲很受伤意见很大

上观新闻
2026-03-26 14:26:45
恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

影像温度
2026-03-26 11:25:05
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
张雪峰猝死后,卢克文也不敢跑步了,曾每年跑1千公里,身体垮了

张雪峰猝死后,卢克文也不敢跑步了,曾每年跑1千公里,身体垮了

水晶的视界
2026-03-26 09:28:29
中日战争还没打响,中国可能就先“输”了。

中日战争还没打响,中国可能就先“输”了。

别人都叫我阿腈
2026-03-26 08:03:09
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
痛别!李幼平逝世

痛别!李幼平逝世

极目新闻
2026-03-26 13:31:27
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
2026户籍新规全面落地:人在何处生活,户口即可登记于此

2026户籍新规全面落地:人在何处生活,户口即可登记于此

复转这些年
2026-03-26 09:43:09
京牌不再稀缺,北京车市进入理性新阶段

京牌不再稀缺,北京车市进入理性新阶段

音乐时光的娱乐
2026-03-26 14:59:43
2026-03-26 16:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
旅游
本地
公开课

艺术要闻

哪一座桥不是风景?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版