网易首页 > 网易号 > 正文 申请入驻

微软提出Computer-Using World Model,教智能体理解动作的后果

0
分享至



把大模型「放进电脑里」,会出现一种很奇特的反差:

它能写代码、能推理、能把论文总结得头头是道;但一旦让它去操作 Excel、Word 这种真实桌面软件,却像第一次用电脑的人 -- 点错菜单、来回切换,甚至在同一页里循环点击。

很多人第一反应会觉得是 Agent 没看清按钮,或者没理解任务,不知道界面上各个选项是什么意思。但在真实软件里,更大的问题往往不是「看不见」,而是「不知道点下去会发生什么」。

在同一个界面上,不同的操作会把系统带到完全不同的状态,一旦点错,往往很难简单撤销。操作会产生延迟,流程被打断,有时甚至会直接破坏文档。因此,关键不只是识别界面或读懂指令,而是能提前判断每个动作可能带来的结果。

人学习使用软件时,看起来像是在界面里「到处试一试」。

比如你要给一个 Excel 工作簿加密。面对界面时,你会下意识地判断:点这个入口会不会弹出密码窗口?点那个标签只是切换视图,还是在真正推进任务?哪个操作更像是在朝目标靠近?

你并不是随便点击,而是在挑一个更可能有效的下一步。

这种在行动前先预想结果、再用一次操作去验证的过程,在认知科学中通常被称为反事实推理。

很多时候,人并不是等系统反馈才知道对错,而是先对可能发生的结果有一个大致预期,再去确认。

相比之下,不少 GUI Agent 更像「看一步、做一步」:它能读懂当前截图里的内容,却缺少对「这个动作通常会带来什么变化」的判断,因此只能在真实环境中反复尝试,试错成本也更高。

CUWM:在真正点击之前,先在「脑海里点一遍」

微软研究团队提出的 Computer-Using World Model(CUWM),想解决的正是这个问题。它做的事情可以简单理解为:在真的操作软件之前,先让智能体「想象一下会发生什么」。



  • 论文链接:https://arxiv.org/html/2602.17365v1

更具体地说,给定当前界面的截图,以及一个候选操作(例如点击某个按钮),CUWM 会预测执行这个操作后的界面图像。

图 1 展示了以当前软件界面的截图和对应操作作为输入,CUWM 预测执行该操作后出现的下一步界面图像。当智能体面对多个可选动作时,它不需要立刻在真实软件里一个个去试,而是先把这些动作交给世界模型模拟 —— 于是会得到几种「想象出来的下一步界面」。



图 1:CUWM 预测的不同动作导致的软件界面图片。从同一当前界面(current state)出发,执行不同操作,如点击 Encrypt with Password、打开 Images 或放大视图,会得到不同的下一个状态(例如弹出密码窗口、展开工具面板或改变显示比例)。

接下来,智能体只需比较:哪一种结果更接近任务目标?选出最合理的一步,再在真实系统中执行。

论文把这个过程称为world-model-guided test-time action search。重要的是,智能体本身的策略是冻结的,没有重新训练;性能提升来自于更好的「预演」和更充分的测试时计算,而不是把 Agent 本身变得更复杂。

换句话说,CUWM 不是在教智能体更会操作,而是在给它一种「先想后做」的能力。



图 2:CUWM 概述:给定当前 UI 截图与动作(如点击 Excel 的列「H」),CUWM 先生成一段聚焦局部变化的过渡描述(Stage 1),再在保持不变区域稳定的前提下对截图进行条件编辑,生成预测的下一状态(Stage 2)。

关键设计:模型关注的不是像素,而是「变化」

桌面软件 UI 的特点是:大部分区域长期不变,变化通常发生在局部 —— 选区高亮、面板展开、弹窗出现、光标移动…… 如果端到端预测整张下一帧截图,模型既要背负巨大的不变背景,又要捕捉极小但关键的变化,低效且容易「注意力错位」。

CUWM 的关键设计是把「下一步预测」拆成两段:

  • Stage 1:先说清楚「变了什么」(Textual State Transition):输出一段结构化、尽量简洁的「过渡描述」,只写与动作相关的界面变化;
  • Stage 2:再把变化落实到截图上(Visual State Realization):用条件图像编辑把变化渲染到原图上,尽量保持不变区域稳定,生成下一步截图。

这一分解的重点不在「画得多逼真」,而在让模型学到:动作改变的是系统状态,而智能体真正需要的是「点了之后世界怎么变」。

图 2 展示了 CUWM 的两阶段流程:先生成「变化描述」,再把变化实现成下一帧 UI。这种「what changes /how it appears」的分解,让模型把注意力放在动作后果上,而不是低效地重绘整张界面。

训练数据怎么来:从真实交互里抽三元组,再自动写「变化描述」

CUWM 不依赖昂贵的在线强化学习环境,而是从真实软件的交互轨迹中构造训练样本:把一次操作前后的界面截图配对,再附上对应的动作表示,形成标准的 ((s_t, a_t, s_{t+1})) 训练三元组。

关键在于 Stage 1 的监督信号 ——「变化描述」怎么得到?论文做法是用 GPT-5 作为自动标注器:对每个三元组生成一段简洁的 UI 变化描述,明确「哪些变了、哪些不变」,用来监督微调 Stage 1。

为了让描述更短、更结构化、更少幻觉,作者还在 SFT 之后用 GRPO 做轻量 RL 细化:奖励由 LLM-as-a-Judge 的结构一致性评分与长度惩罚组合,从而有效覆盖关键 UI 结构。

结果:智能体开始「规划行动」

在实验中,智能体需要完成「给 Excel 工作簿添加密码保护」的任务。它不会立刻在真实环境里点来点去,而是先提出多个候选动作,并逐个调用 CUWM 进行模拟,得到每个动作可能带来的「下一步界面」。

随后,智能体把这些模拟结果与任务目标进行对照,最终选择点击「Protect Workbook」—— 因为这一候选动作对应的预测界面最符合「进入保护 / 加密流程」的预期方向。

那么,智能体是如何在点击前完成一次「内部试错」的?图 3 给出了直观示例。



图 3:先模拟后执行:world model 做「模拟器」,Agent 做「决策者」。 智能体先提出多个候选动作,CUWM 分别预测每个动作会导致怎样的下一步 UI;智能体再根据这些预测结果与任务目标的匹配程度,选择更可能推进任务的那一步(示例中为「Protect Workbook」),从而减少真实环境中的反复试错与无效点击。

这正是 CUWM 的价值所在:把高成本的环境试错转移到模型内部。智能体先在「想象出来的下一屏」里完成比较与选择,再把最有希望的一步落到真实软件执行。从「高成本试错」变成「低成本模拟」,显著降低无效操作与循环点击,让 GUI Agent 从反应式点击走向规划式决策。

更进一步,论文指出,性能提升的关键更多来自对界面结构变化的正确预测(例如面板是否展开、关键入口是否出现),而不只是生成图像的视觉逼真度。这也侧面说明,GUI Agent 的核心能力并非纯视觉识别,而是面向交互的规划与决策。

更深层的意义:Agent 决策能力意味着什么

如果把大模型的发展看成一条连续的能力变化,其实不只是「更聪明了」,而是能力的类型在改变。

过去,大模型主要解决的是理解与表达的问题:它能读懂一段话、回答问题、写文章、解释概念。这些能力本质上都发生在「信息空间」里 —— 输入是文本,输出也是文本。模型只需要给出一个合理的回答,不需要承担真实后果。

但当 AI 进入软件环境,问题发生了变化,这里不再是「回答是否合理」,而是「动作是否有效」。一次点击、一次输入、一次拖拽,都会改变系统状态,并影响之后还能不能继续完成任务。也就是说,AI 不再只是解释世界,而是在改变世界(哪怕只是数字世界)。

这时,Agent 的核心能力就变成了决策能力:它必须在多个可能动作中做选择,并对选择的后果负责。关键不再是「这句话对不对」,而是「这一步走完之后,任务更接近还是更远」。

人类在操作软件时,之所以效率很高,是因为在行动前会形成一种内部判断:这个操作大概会带来什么结果。如果结果不符合目标,往往在点击前就会放弃,而不是等系统报错。这其实是一种对「动作 → 状态变化」的理解。

而很多当前的 GUI Agent 缺少的正是这一层。它能识别界面、能理解指令,却仍然主要依赖真实交互去排除错误路径。也就是在环境里不断试错,直到碰到正确步骤。换句话说,它更像是在反应,而不是在决策。

CUWM 的意义,不只是提高成功率,而是让 Agent 开始具备一种新的能力:在执行之前先评估后果。

当智能体可以先模拟不同动作带来的不同未来,再选择更合适的一步时,它做的就不再只是「操作界面」,而是进行路径规划。试错仍然存在,但优先发生在内部,而不是直接作用于真实系统。

因此,这里的转变可以这样理解:大模型让 AI 学会了「如何回答」,而决策能力让 AI 开始学会「如何行动」。当 AI 能根据预期后果来选择动作时,它才真正从一个对话工具,变成一个能够在数字环境中推进任务的行动体。

作者介绍

CUWM 的作者是微软实习生以及微软 UFO 团队的成员,包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
50岁女人,烫发还是直发?看完这三组对比图,答案就清楚了

50岁女人,烫发还是直发?看完这三组对比图,答案就清楚了

小陈聊搭配
2026-04-30 21:00:22
申花训练场迎来久违外援复出!本轮踢蓉城有望复出,直接一剑封喉

申花训练场迎来久违外援复出!本轮踢蓉城有望复出,直接一剑封喉

振刚说足球
2026-05-01 10:05:34
释永信与师姐释永梅合影:20多年前,她胸前挂着当时最时尚手机

释永信与师姐释永梅合影:20多年前,她胸前挂着当时最时尚手机

东方不败然多多
2026-05-01 10:11:54
2026年6月1日:AI编程的"无限量"时代终结

2026年6月1日:AI编程的"无限量"时代终结

赛博兰博
2026-04-29 17:07:13
张雪峰的财产争夺战开始了!

张雪峰的财产争夺战开始了!

八卦疯叔
2026-04-29 11:08:54
老年痴呆原因被揪出:十个老人九个都爱做,现在改还来得及!

老年痴呆原因被揪出:十个老人九个都爱做,现在改还来得及!

深度报
2026-04-29 22:54:53
十年来年轻人口减半:北京为什么越来越留不住年轻人了?

十年来年轻人口减半:北京为什么越来越留不住年轻人了?

阜成门六号院
2026-04-30 18:27:12
大战将近,他成大巴黎阿喀琉斯之踵

大战将近,他成大巴黎阿喀琉斯之踵

西哇体育
2026-05-01 12:57:53
连续4年亏损33亿!海昌海洋公园为何把一手好牌打烂?

连续4年亏损33亿!海昌海洋公园为何把一手好牌打烂?

青眼财经
2026-04-27 08:06:55
开国大将被毛主席批评,60岁无奈离职休养,主席特批他享元帅待遇

开国大将被毛主席批评,60岁无奈离职休养,主席特批他享元帅待遇

浔阳咸鱼
2026-05-01 13:00:19
五一假期来临,人社部公布2026年职工养老金调整通知了吗?来看看

五一假期来临,人社部公布2026年职工养老金调整通知了吗?来看看

社保小达人
2026-05-01 10:44:09
炎亚纶凌晨发长文清算16年恩怨:决裂汪东城、官宣结婚告别飞轮海

炎亚纶凌晨发长文清算16年恩怨:决裂汪东城、官宣结婚告别飞轮海

橙星文娱
2026-04-30 09:58:57
离谱!许家印只喝2700一瓶水 马桶必须喷香水 随身配备女按摩师

离谱!许家印只喝2700一瓶水 马桶必须喷香水 随身配备女按摩师

念洲
2026-04-28 11:37:39
女演员长相多重要?看42岁唐嫣跟33岁杨采钰,才知长相成熟多吃亏

女演员长相多重要?看42岁唐嫣跟33岁杨采钰,才知长相成熟多吃亏

剧芒芒
2026-05-01 12:53:20
亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

凡知
2026-04-08 14:09:55
永不再生! 2022年河北男子潜入保护区挖上千斤, 偷偷种在玉米地里

永不再生! 2022年河北男子潜入保护区挖上千斤, 偷偷种在玉米地里

万象硬核本尊
2026-04-23 19:24:17
送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

趣知史馆
2026-03-10 20:20:03
川普或再打伊朗,但不会彻底解决,以继续通吃全球

川普或再打伊朗,但不会彻底解决,以继续通吃全球

邵旭峰域
2026-05-01 11:41:43
真敢说!追梦:科尔耽误了我的职业生涯,KD加盟后再无专属战术

真敢说!追梦:科尔耽误了我的职业生涯,KD加盟后再无专属战术

体育见习官
2026-05-01 09:47:02
2026下半年最值得期待的3个生肖,正财稳、横财旺,走哪哪顺!

2026下半年最值得期待的3个生肖,正财稳、横财旺,走哪哪顺!

毅谈生肖
2026-05-01 11:27:57
2026-05-01 13:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12898文章数 142639关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

郴州1岁男童被人入室抢走案:奶奶曾被家人冤枉是共犯

头条要闻

郴州1岁男童被人入室抢走案:奶奶曾被家人冤枉是共犯

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

房产
数码
旅游
本地
公开课

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

数码要闻

英特尔Arc G3 Extreme跑分泄露CPU 与核显性能均算得上亮眼

旅游要闻

游玩超方便!“五一”假期,开封优化多条公交特色专线

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版