网易首页 > 网易号 > 正文 申请入驻

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

0
分享至

西湖大学 投稿
量子位 | 公众号 QbitAI

人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。

以DeepSeek为代表的LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。

然而,LLM的潜力远不止于文本生成,它们正在塑造一种全新的智能体形态——GUI代理(GUI Agents)。这类智能体不仅能理解指令,还能像人类一样直接操作计算机和手机,摆脱对预设规则或API的依赖,带来更自然、高效的交互方式,使AI真正融入软件生态,成为智能操作系统的一部分。

问题在于,目前的LLM代理虽然具备强大的推理能力,却在任务执行效率上存在明显瓶颈

为了解决这个问题,现在,西湖大学AGI实验室张驰团队推出了AppAgentX——一款具备自我进化能力的GUI代理。它能够在不断执行任务的过程中学习并优化自身的行为模式,实现更加高效的操作。

AppAgentX的核心创新在于:

  • 自动归纳高效操作模式:代理能够在执行任务时,检测重复性操作模式,并自动总结成更高级别的“一键”操作。
  • 任务执行更快,减少重复计算:传统的LLM代理每次执行任务都需要重新思考操作流程,而AppAgentX能够记住并复用执行策略,从而避免重复推理,使得任务执行更加流畅高效。
  • 完全基于视觉操作,适用于各种软件:传统自动化方法通常需要访问后端API,而AppAgentX仅依赖屏幕视觉信息进行操作,无需后端访问,因此能够在不同软件、不同设备上通用,真正做到“即插即用”。

AppAgentX:让智能体学会“进化”

过去,计算机的自动化操作主要依赖RPA(机器人流程自动化),通过预设规则或API进行固定任务的执行。然而,这种方式需要大量手动配置,缺乏灵活性。

GUI代理的出现,改变了这一局面,被誉为软件世界中的具身智能。

GUI代理不依赖后端API,而是像人类一样,通过屏幕视觉、鼠标和键盘直接操作软件界面。这意味着,智能体可以自主学习如何操作各种应用程序,甚至能够在不同软件之间切换,执行复杂的跨应用任务。例如:

  • 办公场景:自动整理文档、批量发送邮件
  • 娱乐与创作:使用Photoshop处理图像、生成视频内容
  • 自动化操作:批量录入数据、自动处理订单
  • 跨应用任务:从网页爬取信息后填入Excel、在多个软件之间进行联动操作

正因如此,GUI代理被视为智能助手、数字员工、自动化测试等领域的下一代解决方案,但现阶段的挑战也很突出:现有的智能体聪明但不够高效

现有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次执行操作前,模型都要推理下一步动作。例如,在进行网页搜索时,它可能会这样决策:

  1. 识别需要搜索的信息;
  2. 点击搜索框;
  3. 输入关键词;

这种方式赋予了智能体极强的泛化能力,使其能够适应新任务场景,但也带来了执行低效、重复计算严重的问题。

AppAgentX解决这一痛点的核心思路,是让智能体学会“进化”

下面是一个AppAgentX执行播放音乐的一个例子示意图,当找到了“一键”操作,就不需要每一步都耗费大量时间思考下一步需要做什么,从而快速完成任务。

这里可以看出智能体进化出一个高级操作“搜索”,它取代了一系列低效的低级操作。这种进化避免了重复耗时的逐步推理,显著提高了代理的效率。

△AppAgentX的功能示意图

方法介绍

任务轨迹的分解

在执行任务时,AppAgentX会将整个过程分解成多个重叠的三元组(即由三个部分组成的组合)。这些三元组包含了页面内容和用户界面(UI)元素的功能描述。

具体来说,智能体会:

  • 生成功能描述:利用大语言模型(LLM),为每个页面和界面元素生成详细的功能描述。这些描述帮助智能体理解每个部分的作用。
  • 合并重复描述:如果某些页面的描述是重复生成的,智能体会将这些描述合并,以减少冗余信息。
  • 记录交互历史:整个交互过程会被记录成一个节点链,形成一个完整的操作历史,便于后续调用。

进化机制与执行过程

在任务执行过程中,AppAgentX还引入了一种进化机制,使得智能体能够更高效地执行操作。这个机制的核心在于生成“捷径节点”,允许智能体在执行一系列操作时,跳过逐步推理的过程。具体步骤如下:

  • 生成捷径节点:当智能体识别到某些操作具有固定的执行顺序时,它会创建捷径节点。这些节点将多个底层操作整合为一个更高级的动作。
  • 高效执行:通过调用这些捷径节点,智能体可以快速执行一系列操作,而无需逐步推理每一步。这大大提高了任务执行的效率。

从实验结果来看,AppAgentX从单步的执行效率到总体的API token消耗,在多个GUI交互任务上展现出了显著的“降本增效”。

总体来说,AppAgentX作为一项创新的移动终端交互技术,通过构建链式知识存储架构与动态匹配执行机制,在保持大型语言模型代理灵活性的同时显著提升执行效能,实现了无需后端访问的图形界面智能操作系统。

该技术突破性地解决了传统智能体在响应速度与认知能力间的平衡难题,为移动端AI应用开辟了新的技术路径。此项研究不仅标志着智能体技术在效率与智能动态平衡方面取得重要突破,更为人机交互领域提供了可扩展的技术范式。

项目地址:https://appagentx.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv地址:https://arxiv.org/abs/2503.02268

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

红星新闻
2026-03-25 20:09:43
美媒晒NBA球队市值排名:勇士113.3亿美元居首 湖人第2火箭第10

美媒晒NBA球队市值排名:勇士113.3亿美元居首 湖人第2火箭第10

罗说NBA
2026-03-26 06:18:02
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

云鹏叙事
2026-03-26 00:00:06
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

有范又有料
2026-03-25 14:08:39
2026QS世界大学学科排名正式发布!

2026QS世界大学学科排名正式发布!

双一流高校
2026-03-26 00:11:50
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

小徐讲八卦
2026-03-26 12:55:53
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

成吉思热
2026-03-26 10:02:48
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
2026-03-26 16:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12347文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
亲子
游戏
艺术

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版