网易首页 > 网易号 > 正文 申请入驻

LongHorizonUI:GUI 智能体面向长链路任务的统一鲁棒自动化框架

0
分享至



在移动端和桌面端的日常使用中,许多操作并非点一下按钮就能完成。预订一场会议、在游戏商城中购买并装备一件道具、又或者在多个应用之间完成一组连贯的工作流 —— 这些任务通常需要十几步甚至几十步的连续交互。近年来,基于多模态大语言模型(MLLM)的 GUI 智能体在自动化操作上取得了不少进展,但一个很现实的问题始终存在:当任务步数超过 10–15步,智能体的成功率会出现断崖式下跌。

为解决这一问题,来自中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱 Turing Lab 的研究人员共同提出了LongHorizonUI,一个面向 GUI 智能体长链路任务的统一鲁棒自动化框架。该成果已被ICLR 2026(The Fourteenth International Conference on Learning Representations)接收。论文提出了增强感知、深度反思决策与补偿式执行三大核心模块,并构建了首个专注于长链路场景的评测基准LongGUIBench,系统地推动了 GUI 自动化在复杂真实场景中的可靠落地。



  • 论文标题:LongHorizonUI: A Unified Framework for Robust Long-Horizon Task Automation of GUI Agent
  • 论文链接:https://openreview.net/pdf?id=BK7Mk5d4WE
  • 主页:https://kane2kang.github.io/LongHorizonUI/



长链路场景下,智能体为何 "撑不住"?

研究团队首先在 AndroidControl 基准上对多个主流方法做了按步长分段的性能评估。结果很直观:当操作序列在 5 步以内时,各方法的平均成功率超过 90%;但一旦序列长度超过 10 步,成功率便跌破 75%;到了 15 步以上,平均仅剩约 60%。

这种非线性的性能衰减说明,现有方法在长链路中无法有效捕捉跨步状态依赖,感知漂移、定位偏差和决策误差逐步叠加,最终导致整个流程崩溃。既有的公开基准大多聚焦于短任务(典型不超过 10 步),也难以充分暴露这一问题。

于是研究团队提出了一个核心问题:如何让 GUI 智能体在长步骤操作序列中始终保持上下文一致性与决策准确性?



覆盖应用及游戏的长链路场景评测方案

为了在长链路场景下开展系统性评测,研究团队构建了一个新的基准,所有任务的操作步数均不低于15 步,平均为 22.1 步。

数据集包含两大类场景。通用应用场景涵盖了 Gmail、YouTube 等 15 款主流应用,共 147 条端到端任务链,平均步数 19.5,涉及多级菜单导航、实时输入验证等典型交互行为。游戏场景则由专业测试人员在 13 款热门游戏 APP 中录制,共 207 条高复杂度链路,平均步数 23.7,最长可达 37 步,覆盖装备管理、活动参与等核心游戏机制。

每条任务同时提供两级指令标注:High-Level 指令描述宏观目标(如 "在游戏商城购买 XX 道具"),Low-Level 指令则分解为原子操作序列(如 "点击商城按钮"→"选择购买")。所有操作步骤均配有精细的 UI 语义标注,包括控件类型、bbox 坐标和状态属性。全部数据合计 4508 张截图,经 6 位专业人员跨模态对齐和人工去噪后生成标准化标注。

核心方法:三大模块协同工作

LongHorizonUI 的核心设计理念是将 "语义决策" 到 "物理执行" 之间的不确定性做分层处理。框架由三个模块组成,形成感知 — 决策 — 执行的完整闭环。



多模态增强感知模块(MEP)并行运行控件检测器与 OCR 识别模块,为屏幕上每个 UI 元素分配唯一的空间索引 ID,作为后续所有环节的稳定锚点。为了解决 "图标 + 文字" 这类复合控件的歧义问题,MEP 引入了基于 IoU 的语义绑定机制 —— 当图标检测框与 OCR 文本框的交并比超过设定阈值时,将二者关联为同一语义实体。此外,针对弹窗关闭按钮等容易漏检的关键元素,MEP 在高优先区域设置了模板匹配修复机制,确保不会因漏检而卡住整个流程。

深度反思决策模块(DRD)通过严格定义的 JSON Schema 输出格式,强制模型进行三级闭环推理。第一级是历史验证,检查上一步操作是否成功执行,UI 状态转换是否符合预期;第二级是目标检查,提取当前屏幕的关键信息并与任务目标进行一致性比对;第三级是动作可解释推理,要求模型在给出执行指令之前先说明当前界面状态、定位依据和操作理由。在执行前,DRD 还会校验目标元素是否确实存在于当前屏幕上、动作语义是否与任务描述匹配,不满足条件的动作会被拒绝并触发修正。

补偿式执行器(CAE)负责将决策层输出的动作指令映射到屏幕上的物理坐标。执行时按优先级依次尝试三种定位策略:首先通过元素索引定位到控件质心点击;若失败则在检测框内随机采样一个点进行相对定位点击;仍然失败则回退到屏幕绝对坐标并添加微小扰动以应对边缘遮挡情况。每次点击后,MLLM 会对新截图进行验证判断操作是否成功。当所有候选方案均失败时,系统触发局部重规划;若依然无法恢复,则回滚到上一个成功快照继续执行。

实验结果

在 LongGUIBench 上,LongHorizonUI 展现出对长链路任务的显著优势。在通用场景中,低级指令的步骤成功率达到 85.3%,高级指令达到 52.3%,分别较 UI-TARS-1.5 提升了 6.1% 和 30.5%。在游戏场景中同样保持明显领先,低级指令 SR 达 83.9%,高级指令 SR 达 52.1%,整体平均 77.3%。

在 ScreenSpot 跨平台 UI 元素定位基准上,LongHorizonUI 以 90.4% 的平均准确率超越此前所有开源方法,在 Mobile、Desktop、Web 三个平台上均表现稳健,尤其在 Icon 类元素上优势突出,验证了 IoU 语义绑定策略的实际效果。

消融实验进一步证实了各模块的必要性:移除控件检测器使步骤完成率下降 6.1%,移除 OCR 模块导致 2.3% 的下降并在复合控件上频繁出错,仅使用索引定位的任务完成率为 81.4%,叠加补偿策略后逐步提升至 85.3%。

此外,在 OSWorld 的 50 步长链路设置中,LongHorizonUI 达到 29.4% 的成功率,较 UI-TARS-72B 的 24.6% 提升了 4.8 个百分点,进一步验证了框架在超长链路场景下的鲁棒性。

下图展示了 LongHorizonUI 在真实任务中的逐步执行可视化,包括感知标注、决策推理和动作执行的完整过程:



总结

LongHorizonUI 为长链路 GUI 自动化任务提供了一套完整的解决方案。通过索引化感知、结构化反思决策和多级补偿执行的协同设计,它有效缓解了长步骤操作中的误差累积问题,在多个基准上取得了一致的性能提升。同时构建的 LongGUIBench 基准也为该领域后续研究提供了标准化的评测平台。

作者介绍

温少国,本科、硕士均毕业于北京邮电大学,现任腾讯高级算法研究员。长期从事计算机视觉、多模态大模型、智能体(Agent)等领域的研究与工程实践,在相关方向拥有多年技术积累与研发经验。

康斌,中国科学院大学成都计算机应用研究所博士研究生(同时在哈尔滨工业大学(深圳)联合培养),导师为陈斌研究员和田倬韬教授,研究方向聚焦于多模态视觉感知与交互,研究成果发表于:ICLR、ACMMM、CVPR、AAAI、ICME 等国际会议与期刊。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

蝉吟槐蕊
2026-03-26 13:19:09
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
收评:三大指数均跌超1% 两市成交额跌破2万亿

收评:三大指数均跌超1% 两市成交额跌破2万亿

财联社
2026-03-26 15:02:09
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
中国SUV最大骗局,被岚图泰山X8的“622”当场拆穿

中国SUV最大骗局,被岚图泰山X8的“622”当场拆穿

汽车预言家
2026-03-23 12:21:30
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
2026-03-26 16:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
时尚
数码
公开课

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版