网易首页 > 网易号 > 正文 申请入驻

AGI真方向?谷歌:智能体在自研世界模型,世界模型is all You Need

0
分享至

机器之心报道

编辑:泽南、Panda

越通用,就越World Models。

我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

如今,在通用人工智能(AGI)初现曙光,Scaling Laws 却疑似接近极限的当口,又是谷歌对未来方向进行了一番思考,想来想去还是只有五个词:

  • 论文标题:General agents need world models
  • 论文链接:https://arxiv.org/abs/2506.01622

该论文已被机器学习顶会 ICML 收录。他们发现:如果一个 AI 智能体能够处理复杂的、长期的任务,那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。

世界模型是实现灵活、目标导向行为的必要要素,还是无需模型的学习就已足够?Google DeepMind 研究人员为这个问题提供了一个正式的答案——任何能够泛化到多步骤目标导向任务的智能体都必须学习其环境的预测模型

更进一步,实验证明,这样的模型可以从智能体的策略中提取出来,而提升智能体的性能或其可实现目标的复杂性需要学习越来越精确的世界模型。这将带来一系列影响:从开发安全通用的智能体,到在复杂环境中限制智能体的能力,以及提供从智能体中获取世界模型的新算法。

香港中文大学博士 Richard C. Suwandi 撰写了一篇博客文章,详细解读了这篇开创性的论文及其对 AGI 未来的意义。

想象一下,如果我们能够构建一个像人类一样思考和计划的人工智能,未来会是什么样子。大语言模型(LLM)领域的最新突破使我们更接近这一目标。随着这些模型规模不断扩大,并接受更多数据的训练,它们会发展出所谓的涌现。

这显著提升了它们在各类下游任务上的表现。大模型的涌现引发了新一轮的研究,旨在创建能够在现实世界环境中处理复杂、长期任务的通用 AI 智能体。但令人着迷的是:人类不仅对他们所见的事物做出反应,我们还建立了丰富的心智模型来建模世界的运作方式。这些世界模型可帮助我们设定雄心勃勃的目标,并制定周到的计划。因此,基于这一观察,我们很自然地会问:

世界模型对于实现人类水平的人工智能有用吗?

最近,Google DeepMind 的研究人员表明,学习世界模型不仅有益,而且对于一般智能体来说也是必要的。在这篇文章中,我们将讨论该论文的主要发现及其对 AI 智能体未来的影响。

我们需要世界模型吗?

1991 年,Rodney Brooks 提出了一个著名观点:「世界是其自身的最佳模型」。

他认为,智能行为可以自然地从无模型智能体中产生,只需通过一系列动作和感知与环境互动,无需构建世界运作方式的明确表征。无模型智能体的显著成功有力地支持了 Brooks 的论点,这些智能体在不同任务和环境中展现出了出色的泛化能力。这种无模型方法为创建通用 AI 智能体提供了一种颇具吸引力的途径,同时避免了学习显式世界模型的复杂性。

然而,最近的研究提出了一个有趣的可能性:即使是这些所谓的无模型智能体也可能正在表面之下学习隐式的世界模型和规划算法。

Ilya Sutskever 一直是对的?

这让人们回想起 2023 年 3 月,OpenAI 联合创始人 Ilya Sutskever 提出了一个深刻的论断:大型神经网络的功能远不止预测下一个单词,它实际上是在学习「世界模型」。他是这样说的:

他认为,神经网络学习的不仅仅是文本信息,而是我们这个世界的一种压缩表征。因此,我们预测下一个词的准确度越高,世界模型的保真度就越高。

智能体与世界模型

虽然 Ilya 的说法引人入胜,但当时尚不清楚如何将其形式化。但现在,谷歌 DeepMind 的研究人员已经证明,Ilya 的说法并非仅仅是一个假设,而是一条支配所有通用智能体的基本定律。

在论文中作者指出,「任何能够推广到广泛的简单目标导向任务的智能体都必须学习能够模拟其环境的预测模型,并且该模型始终可以从智能体中还原出来。」

任何满足界限的智能体都必须学习环境转换函数,该函数可以从其目标条件策略中提取出来。对于能够处理诸如到达特定状态等基本任务的智能体来说也是如此。

注意,上述内容仅适用于在多步骤范围内进行规划的智能体,因为它们需要了解行动如何影响未来状态。然而,只考虑即时奖励的「短视」智能体可能会避免学习世界模型,因为它们不需要预测长期后果。

为了使上述主张更加精确,作者开发了一个基于四个关键组成部分的严格数学框架:环境、目标、智能体和世界模型。

环境

假设环境是一个受控马尔可夫过程(cMP)本质上是一个没有指定奖励函数的马尔可夫决策过程。cMP 的构成包括状态空间 S、动作空间 A 以及过渡函数

作者假设环境是不可简化的和固定的。

目标

从有界智能体恢复世界模型的派生算法。

与其他研究的关联

这项工作的成果补充了人工智能研究的其他几个领域:

所提出的算法完善了环境、目标和策略之间的「三角」。规划在给定世界模型和目标(世界模型 + 目标 → 策略)的情况下确定最优策略,而逆向强化学习(IRL)给定世界模型和策略(世界模型 + 策略 → 目标),恢复目标。提出的算法通过给定智能体的策略和目标(策略 + 目标 → 世界模型),恢复世界模型来填补剩余的方向。正如 IRL 需要跨多个环境观察策略才能完全确定目标一样,算法需要观察智能体在多个目标上的行为,才能完全恢复世界模型。

虽然规划使用世界模型和目标来确定策略,而 IRL 和逆向规划使用智能体的策略和世界模型来识别其目标,但所提出的算法使用智能体的策略及其目标来识别世界模型。

传统的机械可解释性(MI)通常依赖于分析神经网络激活或使用监督探测另一方面,所提出的算法提供了一种新颖的方法,可以直接从智能体的策略行为中提取世界模型,即使在模型内部无法访问的情况下也能适用。这种无监督且与架构无关的方法适用于任何满足有限 regret 条件的智能体,无论其具体实现如何。对于 LLM,这意味着我们可以通过分析其目标导向行为来揭示其隐含的世界模型,而无需访问其内部表征。

最近的研究《Robust agents learn causal world models》表明,适应分布变化的智能体必须学习因果世界模型。该研究通过关注任务泛化而非领域泛化来补充这一理论。有趣的是,领域泛化需要比任务泛化更深的因果理解。

例如,在一个状态变量为 X 和 Y 是存在因果关系(X→Y),智能体只需学习转移概率即可实现最佳任务绩效,而无需了解潜在的因果关系。这暗示了 Pearl 因果层级的智能体版本其中不同的智能体能力(如领域或任务泛化)需要不同级别的因果知识。

这些发现对人工智能的发展和安全也具有着重要意义。大语言模型和其他人工智能系统中新功能的出现,可以用在针对各种训练任务进行优化时学习到的隐式世界模型来解释。从能力强大的智能体中提取世界模型的能力,为验证和校准提供了一种新的工具,因为模型保真度会随着智能体能力的提升而扩展。然而,学习复杂现实世界系统的精确世界模型本身就存在困难,这也从根本上限制了智能体的通用能力。

结论

或许,Ilya 在 2023 年的预测比我们意识到的更有前瞻性。如果上述结果属实,那么当前通过扩展语言模型来推进超级人工智能(ASI)的竞赛,或许暗地里就是一场构建更复杂世界模型的竞赛。我们也有可能正在见证一些更为深刻的变革:从 David Silver 和 Richard Sutton 所说的「人类数据时代」向「经验时代」的转变。虽然当前的人工智能系统通过模仿人类生成的数据实现了非凡的能力,但 Silver 和 Sutton 认为,超人类智能将主要通过智能体从自身经验中学习而诞生。

例如,随着 Genie 2 等基础世界模型的最新发展,我们可以从单个图像生成无限的 3D 环境并允许智能体在丰富的环境中产生「经验流」,并根据其能力进行适应和发展。

Genie 2,谷歌提出的一个基础世界模型,能够生成无限多样、可操作、可游玩的 3D 环境,用于训练和评估具身智能体。只需一张提示图像,人类或 AI 智能体即可使用键盘和鼠标输入来游玩。

如果说一般智能体必须学习世界模型,而超人类智能需要从经验而非人类数据中学习,那么像 Genie 2 这样的基础世界模型或许就是体验时代的终极尺度法则。我们并不是在触及人类知识的上限,而是正在进入一个新阶段:AI 智能体的质量从根本上受限于它们能够模拟和探索的世界的保真度。

能够做最精准的梦,并从梦中学习最多的智能体,或许才是最聪明的。

参考原文:

https://richardcsuwandi.github.io/blog/2025/agents-world-models/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真心换假货,“恋爱脑”男子破防!女友套走40万还嫌弃他“食之无味,弃之可惜”

真心换假货,“恋爱脑”男子破防!女友套走40万还嫌弃他“食之无味,弃之可惜”

环球网资讯
2026-01-28 08:39:00
彻底颠覆你的认知!吃肉比吃素更容易活到100岁

彻底颠覆你的认知!吃肉比吃素更容易活到100岁

徐德文科学频道
2026-01-27 21:05:37
输天津许利民逆天言论!采访挺杰曼+本土内线,直言进步逗乐大伙

输天津许利民逆天言论!采访挺杰曼+本土内线,直言进步逗乐大伙

篮球资讯达人
2026-01-28 23:19:01
27岁团长围困中杀出血路,林彪见他时微怔,再三确认:你就是团长

27岁团长围困中杀出血路,林彪见他时微怔,再三确认:你就是团长

磊子讲史
2026-01-04 16:33:38
河南立大功!成功反制打中七寸,洋品牌倒亏146亿,如今彻底凉了

河南立大功!成功反制打中七寸,洋品牌倒亏146亿,如今彻底凉了

火星方阵
2026-01-28 07:39:06
美伊都要军演,紧张局势拉满,沙特、阿联酋却对美国“亮红灯”

美伊都要军演,紧张局势拉满,沙特、阿联酋却对美国“亮红灯”

上观新闻
2026-01-28 15:29:08
外线全面哑火!上海队三分危机成决赛最大拦路虎

外线全面哑火!上海队三分危机成决赛最大拦路虎

大眼瞄世界
2026-01-28 10:22:32
浙江一女子1.4万买的加拿大鹅羽绒服,花300元干洗后秒变“童装”;洗衣店不认可缩水:建议您自行鉴定

浙江一女子1.4万买的加拿大鹅羽绒服,花300元干洗后秒变“童装”;洗衣店不认可缩水:建议您自行鉴定

台州交通广播
2026-01-28 20:22:27
前上海首富周正毅被嘲讽慌了!遭前任毛玉萍连续怒怼,他踱来踱去

前上海首富周正毅被嘲讽慌了!遭前任毛玉萍连续怒怼,他踱来踱去

锋哥与八卦哥
2026-01-28 11:29:43
山东泰山遭遇抢手危机,北京国安和海港均有意引援

山东泰山遭遇抢手危机,北京国安和海港均有意引援

老曁科普
2026-01-29 02:36:27
广州没想到,深圳没想到,如今的中国东莞,已成为全国的焦点!

广州没想到,深圳没想到,如今的中国东莞,已成为全国的焦点!

蓝色海边
2026-01-28 16:52:39
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
你以为60岁女性都安分?其实过了60岁,女人普遍有这7大隐秘变化

你以为60岁女性都安分?其实过了60岁,女人普遍有这7大隐秘变化

娱乐洞察点点
2026-01-29 02:53:51
CBA一夜变天:三队惨败,实力分级残酷上演

CBA一夜变天:三队惨败,实力分级残酷上演

魔血獄苼
2026-01-29 00:56:26
再三呼吁:求求大家别再把旧被子、旧枕芯用到天荒地老了

再三呼吁:求求大家别再把旧被子、旧枕芯用到天荒地老了

医学科普汇
2026-01-28 06:15:03
湖北一中学多名学生铁棚内吃饭,网友称“像在监狱”,校方回应

湖北一中学多名学生铁棚内吃饭,网友称“像在监狱”,校方回应

台州交通广播
2026-01-28 20:22:49
62岁女富豪涉嫌犯罪被立案调查!手握3家上市公司股价大跌

62岁女富豪涉嫌犯罪被立案调查!手握3家上市公司股价大跌

华夏时报
2026-01-28 21:09:18
炒股亏22亿,儿子卷款跑路!昔日中国巴菲特失联了,千亿帝国梦碎

炒股亏22亿,儿子卷款跑路!昔日中国巴菲特失联了,千亿帝国梦碎

历史伟人录
2026-01-28 21:06:00
就在今天!1月28号,CBA上海队传来,卢伟、王哲林消息

就在今天!1月28号,CBA上海队传来,卢伟、王哲林消息

激情与荣耀并存
2026-01-29 00:06:17
2026-01-29 04:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12209文章数 142552关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

健康
家居
数码
本地
公开课

耳石症分类型,症状大不同

家居要闻

跃式别墅 包络石木为生

数码要闻

荣耀平板新春版本今启推送,升级计划公布

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版