近日,中国移动数智化部自主研发的数智员工GUI能力(LX-GUIAgent)在国际权威评测平台AndroidWorld的自主智能体动态基准评测中登顶世界第一。其任务成功率高达79.3%,超越了GPT-5、Llama 4、Gemini 2.5 Pro等多个基座模型构建的能力,标志着中国移动数智员工的GUI操作能力达到了世界领先水平。
![]()
这一世界顶尖的成绩是如何实现的?关键在于构建一套端到端的自主智能解决方案,实现GUIAgent从自学习、自规划、自执行、自适应到自进化的闭环智能。LX-GUIAgent攻克了GUI自动化的几大核心难题:如何自主学习技能?如何准确导航规划?如何快速精准定位元素?如何自动适应生产环境的各种变化?如何自进化快速迭代升级?
一是操作路径自学习。研究自主探索技术,通过BFS、DFS、启发式方法对探索任务进行调度,快速识别GUI界面,找到系统可操作路径,自动学习操作技能,形成操作路径知识图谱,无需人工收集高质量训练数据。
二是准确的路径规划。基于自学习的知识图谱,微调出操作路径模型,增强其在GUI操作方面的长距规划能力。操作路径大模型在动态规划任务时,根据意图检索轨迹、知识、工作流,与用户语义进行综合匹配与排序,结合上下文工程,规划出具体的操作步骤。
三是精准的元素定位。融合传统的UIA、playwright等元素拾取技术与GSUT视觉模型,相比纯视觉方案进一步提升元素拾取定位的性能与精度,相比纯传统方案有更高的精度和泛化能力。
四是执行环境自适应。构建反思智能体,处理执行过程中的各类异常情况。包括通知、广告弹窗自适应;网络超时智能设置机制;页面改版自动校正执行策略等,大幅提升任务端到端执行成功率。
五是自主进化与迭代。打造一套数据、模型、反馈的数据飞轮系统,对执行结果进行监测,让LX-GUIAgent在执行过程中持续积累高质量数据轨迹,并在下一轮训练中将历史经验内化为知识,实现智能体持续自进化。
LX-GUIAgent作为一个通用智能体,已在中国移动数智员工队伍建设中得到广泛应用。中国移动数智化部将持续探索数智员工前沿技术,提升数智员工智能化水平,打造“碳硅融合”新生态,构建新质生产力、助力数智化转型。
坚持推文不易您的赞赏是对我们最大的支持
小手一抖,立马转走!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.