网易首页 > 网易号 > 正文 申请入驻

研究人员在移动GUI Agent框架引入有限状态机,构建Agent感知能力

0
分享至

近日,美国密苏里大学哥伦比亚分校本科校友、美国迈阿密大学硕士校友、加拿大康科迪亚大学博士生郭琳强和所在团队,首次在移动 GUI Agent 框架中引入了有限状态机(FSM,Finite State Machine)作为任务执行的结构化建模手段来构建 Agent 的状态感知能力和结构化记忆。

研究人员让 Agent 在执行过程中实时动态地构建一个 FSM,将 UI 页面视为一个个状态,并记录改变状态的用户行为,从而让 Agent 理解自己身处任务流程的哪个阶段。FSM 的构建不仅让 Agent 拥有执行路径的全局视角,也使其具备前后状态验证,错误回溯的能力,从而在执行任务中更加稳定可靠。这种结构化的表示是对以往 Agent 的突破。更重要的是,这种 FSM 不只是短时记忆,研究人员通过设计 Mentor Agent,将每次任务构建的 FSM 持久化下来,形成可复用的知识。这样 Agent 在处理类似任务时,能够调取历史状态图,从经验中获得指引。


(来源:https://arxiv.org/pdf/2505.23596)

除此之外,研究人员发现以往 GUI Agent 只生成一个计划并直接执行,在真实环境中,一个复杂的任务往往有多种可执行路径,比如“在 Walmart 中查询卫生纸、橘子的商品打折价格并记录到 Note App 中”,这个任务的解决方法并不唯一,Agent 可能会出现先记录其中一个商品然后打开 Note 记录,然后再返回进行对另一个商品的查询以及记录,还有可能 Agent 一次性查询了两种商品的信息然后切换到 Note 中做记录。虽然这两种 plan 都可以解决问题,但很明显前者中存在更多的类似切换 App 的操作,而且真实人类操作更偏向于第二种解决方式。

因此在 MAPLE 中,研究人员让 Planner Agent 一次性生成多个候选 plan,每个 plan 都是由子任务和执行推理构成的序列。随后,研究人员引入了 LLM-as-judge 机制并提供了判断的依据,例如尽可能少地切换 App 的操作,研究人员借助语言模型对这些 plan 进行分析,从中选择最具可行性和稳健性的方案,并给出为推理过程来解释为什么选择它作为最终的 plan。这个机制使研究人员的 planning 过程更灵活而且具备自我评估的能力,从而达到更稳定高效的性能。

MAPLE 是对多模态大模型(MLLM,Multimodal Large Language Models)驱动的 mobile Agent 能力的一种增强与扩展。当前的多模态大模型已经能够理解和解析 UI,但它们在任务执行中仍缺乏结构性记忆和过程建模,导致在复杂任务中容易失误、缺乏上下文判断。MAPLE 通过引入 FSM 结构,为 MLLM Agent 提供了一种持续、可追踪的状态建模能力,让 Agent 不再只是“看当前屏幕做当前事”,而是具备了过程感知、前后状态验证、路径回退等更强的执行智能。因此可以说,MAPLE 是在底层框架上加强了 MLLM Agent 作为 mobile assistant 的整体能力,特别是在规划性、稳定性与可恢复性方面提供了系统性支持。


(来源:https://arxiv.org/pdf/2505.23596)

现如今 Agents 是非常火热的话题,实验室其他的同学也有用基于大模型的 Agents 去做一些相关课题。于是,研究人员便想探索用多模态模型作为 Agents 来做一些 GUI 相关的研究。研究人员对现有的 GUI Agents(主要是移动端)做了相关调查,它们虽然借助强大的多模态大模型具备了识别和操作界面的能力,但是在执行任务的过程中始终在“看一步走一步”,缺乏对应用的整体流程的理解并且缺乏对已访问过页面之间关系的理解,从而很难去判断当前的状态是否偏离了任务目标。正是因为这种局限性,使得现有 Agent 在面对跨应用,长路径的复杂任务和遇到错误操作时的恢复显得脆弱。因此研究人员意识到,是否可以为 Agent 引入一种可以持续建模导航,捕捉状态的变化并支持回溯状态的机制。

整个研究过程大致经历了四个阶段,每个阶段都伴随着对问题理解的深入和系统能力的不断扩展。

最初是分析现有 MLLM 驱动的 mobile Agent,研究人员着重去分析了它们的 error cases 并且注意到一个普遍问题:这些 Agent 虽然能理解单个 UI 屏幕并执行操作,但在复杂任务中经常失败。一旦出错,Agent 很难判断自己是当前操作错误还是在之前就有偏离,也缺乏回退或自我修正的机制,因为大部分 Agent 还是在采用先 retry 再 replan 来修复出现的错误。这个观察促使研究人员思考,是否可以为 Agent 引入一种“过程感知”的能力,来促使它更好地理解任务流程和错误修复。

接着进入的是建模阶段。研究人员选择了 FSM 作为核心抽象方式,因为移动应用本身就天然具备状态与转移的结构,而 FSM 正好可以将 UI screen 映射为状态,用户操作映射为转移。研究人员逐步构建出一个多 Agent 框架,分别负责规划、感知、建模、与执行等。其中的 State Agent 是关键组件,负责动态构建 FSM,同时标注每个状态的前置与后置条件。

第三阶段是实现与迭代。研究人员在真实 Android 设备上部署系统,选择跨应用、多步骤的 benchmark 进行实验。这个阶段挑战很大,因为需要系统在实际界面变化中维持稳定状态建模,还要能检测出偏离并发起恢复。研究人员反复调试 State Agent 和 Reflection Agent 的判断逻辑和 Agent 的提示词,比如如何判定“状态相似”、何时启动恢复、如何避免进入循环恢复等。

最后是规划机制与记忆系统的完善。研究人员引入了多路径规划机制和 LLM-as-judge,解决了此前“只生成一个 plan”的局限,同时引入 Mentor Agent,把任务中的 FSM 和交互经验存储起来,供未来任务复用。这一步让系统不仅能应对当前任务,也具备了跨任务的知识积累能力。

另据悉,在最初的实现阶段,研究人员对 FSM 的应用还比较初步,仅仅是记录了每个状态的自然语言描述。这样的建模方式在执行过程中显得非常单薄,Agent 虽然能够“记住去过哪些页面”,但并不能真正“理解”这些状态的含义,也无法对操作结果进行有效验证。后来,郭琳强与导师进行了深入的讨论。在他的启发下,郭琳强等人开始思考,是否可以为每个状态引入更丰富的语义信息。最终,他们决定为每个状态添加前置条件、后置条件,以及基于当前目标的下一状态预测。

这些要素被统一纳入到状态节点的结构中,使 FSM 不仅是一个执行轨迹的记录器,更是一个具备推理能力的结构化模型。这些增强信息也直接提升了 Reflection Agent 的判断力。它能够结合当前状态的后置条件与预测状态,对实际执行结果进行比对,从而判断动作是否达成了预期效果,是否需要触发恢复机制。同样是在那次讨论中,研究人员也进一步完善了“LLM-as-judge”的理念,不再依赖单一的规划路径,而是让 Agent 能生成多个候选方案,再通过大模型进行评估与筛选。可以说,MAPLE 的逐步完善,离不开研究人员团队每一位成员的投入,尤其是导师的引导与建议,在多个关键节点上都起到了非常重要的作用。这个过程本身就是一次非常宝贵的学习与合作经历。

目前,在 Agent 相关领域里,使用强化学习让小模型代替基于云端的大模型是比较火热的方向,用本地的小模型逐步替代对云端大模型的强依赖从而实现更轻量、可部署的移动智能体。“在其他方面,我可能会看一些 Agent 相关的安全性问题,包括如何限制其行为范围、检测异常决策等在如今都尤为重要。”郭琳强对 DeepTech 表示。

参考资料:

https://arxiv.org/pdf/2505.23596

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥沙利文:提前离场让我和亨得利两三年没说话,但如今已重归于好

奥沙利文:提前离场让我和亨得利两三年没说话,但如今已重归于好

世界体坛观察家
2026-02-16 17:03:16
发现没?凡是男人带女人出去玩,女的都会穿裙子,你知道为什么吗

发现没?凡是男人带女人出去玩,女的都会穿裙子,你知道为什么吗

老好人的愤怒
2026-01-15 18:52:47
3金5银9铜!冬奥会最强亚洲队:奖牌排第3 中国仍0金牌 原因曝光

3金5银9铜!冬奥会最强亚洲队:奖牌排第3 中国仍0金牌 原因曝光

侃球熊弟
2026-02-16 06:25:46
哭穷的闫学晶,意外炸出中戏惊天腐败!三大招生大佬相继自首...

哭穷的闫学晶,意外炸出中戏惊天腐败!三大招生大佬相继自首...

细雨中的呼喊
2026-02-15 11:00:48
沈醉晚年赴香港,被老友孙女提问:你为什么用竹签刺江姐十个指头

沈醉晚年赴香港,被老友孙女提问:你为什么用竹签刺江姐十个指头

南书房
2026-02-16 12:25:05
终于跌了!金价大跳水,2月15日金条金店价新鲜出炉

终于跌了!金价大跳水,2月15日金条金店价新鲜出炉

坠入二次元的海洋
2026-02-16 10:51:00
重磅!中国对英国和加拿大免签,今年2月17日正式执行!

重磅!中国对英国和加拿大免签,今年2月17日正式执行!

英国那些事儿
2026-02-16 20:15:54
炸锅!曼联被敦促炒掉卡里克,换他来救主

炸锅!曼联被敦促炒掉卡里克,换他来救主

澜归序
2026-02-16 07:07:19
渴望重返CBA!前广东超级外援或降薪签约,上赛季场均26+7太无解

渴望重返CBA!前广东超级外援或降薪签约,上赛季场均26+7太无解

老叶评球
2026-02-15 19:52:17
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
终于等到王菲!网友在线求:“耳环哪里买?”

终于等到王菲!网友在线求:“耳环哪里买?”

都市快报橙柿互动
2026-02-16 22:49:48
300亿没了?市值缩水9成,“茶饮第一股”被消费者狠狠上了一课

300亿没了?市值缩水9成,“茶饮第一股”被消费者狠狠上了一课

小熊侃史
2026-01-04 12:36:18
74年陈永贵批评北大荒不会种地,场长:懂个屁,他大寨才几亩地?

74年陈永贵批评北大荒不会种地,场长:懂个屁,他大寨才几亩地?

搜史君
2026-02-16 08:15:10
裁判真瞎!男子5000米接力加拿大队明显推人不判,中国短道太惨了

裁判真瞎!男子5000米接力加拿大队明显推人不判,中国短道太惨了

篮球资讯达人
2026-02-16 19:38:24
爱德华兹:世界队都说自己很厉害,打败他们很爽

爱德华兹:世界队都说自己很厉害,打败他们很爽

懂球帝
2026-02-16 13:59:10
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
当着120国面!王毅正告高市:敢踏足台湾,中国会让日本输得更惨

当着120国面!王毅正告高市:敢踏足台湾,中国会让日本输得更惨

福建平子
2026-02-16 07:05:49
高盛:对冲基金正以十年来最快的速度抄底亚洲市场

高盛:对冲基金正以十年来最快的速度抄底亚洲市场

财联社
2026-02-17 00:28:17
马斯克人设崩塌!文件曝光:爱泼斯坦嫌他“带不动”,怕他大嘴巴坏事

马斯克人设崩塌!文件曝光:爱泼斯坦嫌他“带不动”,怕他大嘴巴坏事

花小猫的美食日常
2026-02-06 06:47:20
春晚被机器人全面入侵的那一夜

春晚被机器人全面入侵的那一夜

版面之外
2026-02-17 00:09:12
2026-02-17 03:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16276文章数 514615关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

数码
游戏
手机
教育
时尚

数码要闻

iPhone17e来了!苹果官宣春季发布会:3月4日晚上十点

索尼又背刺PS5Pro用户?独占《战神》新作不支持强化

手机要闻

3月4日晚上10点见:苹果发布新品邀请函,向马年春节献礼

教育要闻

幼儿园遇到这种事,找对方家长解决不了问题!

记录最近收获很大的一次深度链接

无障碍浏览 进入关怀版