DeepMind CEO定义世界模型标准：不仅理解物理世界，还能创造它|机器人|智能体|人工智能|哈萨比斯|alphago|deepmind

分享至

来源：腾讯科技

从与现实难辨的AI视频，到细致到流水与倒影都符合物理的虚拟世界，再到会在推理中主动调用工具自我修正的模型——这并非科幻小说，而是DeepMind最新的AI工具，已经展现的惊人能力。

8月13日消息，谷歌DeepMind首席执行官德米斯・哈萨比斯（Demis Hassabis）近日做客播客节目《Release Notes》，全面阐述了DeepMind最新一系列技术突破背后的思路与战略布局，其中世界模型Genie 3的突破性进展成为核心亮点。

在这场深度对话中，他勾勒出一个令人振奋又充满挑战的AI新纪元：从AlphaGo征服围棋，到Deep Think斩获数学奥赛金牌；从生成逼真世界的Genie 3，到即将诞生的“全能模型”，我们正站在通向AGI的关键转折点。然而，即便AI已能创造一个完整的虚拟宇宙，它依然可能在国际象棋中违规行棋，这种“参差型智能”的悖论，正揭示了人工智能最深层的秘密。

哈萨比斯指出，“思考型模型”（the thinking models）是通向通用人工智能（AGI）的必经之路；DeepMind的终极目标是推出融合语言、多媒体、物理推理与生成能力的全能模型（Omni Model），其核心支撑正是世界模型的持续进化，最终将实现全面且一致的智能表现，推动通用人工智能（AGI）安全落地。

此次访谈由谷歌AI Studio产品负责人洛根・基尔帕特里克（Logan Kilpatrick）主持，以下为对话内容实录：

思考型模型：从游戏AI到AGI的演进之路

基尔帕特里克：今天我们的嘉宾是谷歌DeepMind首席执行官德米斯·哈萨比斯。你好德米斯，感谢你的到来，很高兴能一起聊聊我们在过去几个月里取得的大量发布成果和进展。

哈萨比斯：你好，很高兴来到这里。

基尔帕特里克：我想先谈谈这种前所未有的进展势头。我看到DeepMind近期在不断推出各种成果，包括Deep Think、IMO金牌、Genie 3，还有其他大约五十个项目，在过去两个月内接连面世，快到让人忘记它们的存在，因为一切都在飞速推进。我想听听你对这种进展与势头的总体看法。

哈萨比斯：是的，这种情形令人振奋。过去几年，我们一直在积蓄力量，加快发布和研发的节奏，如今正看到这些努力的结果。我认为这是行业一个非常令人兴奋的时刻。几乎每天都有新成果面世，我们团队几乎每天都在发布新东西，即便是在内部，也很难跟上进度，更不用说整个领域了。看到这一切我非常自豪，也对我们近期的一些成果感到非常满意。

基尔帕特里克：那你是如何看待 Deep Think 的呢？我个人最兴奋的一点，是该模型的一个版本如今已向 Gemini 应用的订阅用户开放，让大家能够真正亲手体验。我觉得，这种一边推进技术研发、一边让用户直接上手的结合非常美妙。那么，从 Deep Think 的角度来看，你会如何思考？

哈萨比斯：我认为，“思考型”模型的出现，可以看作是对我们早期游戏 AI 工作的一种回溯，比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以来，我们一直在研发“基于智能体的系统”。在早期，这意味着系统能够完成一个完整的任务，通常是将游戏玩到极致，因为游戏有明确的目标。当时我们的模型是单一领域的游戏模型，而如今我们拥有功能强大的多模态模型，既能处理语言，也能理解和整合其他信息。

在游戏AI中，我们需要在模型之上叠加“思考”或“规划”的能力。这是通往 AGI 的必经之路。当模型具备思考能力，就可以进一步延展到“深度思考”，甚至实现并行规划——也就是同时推演多条思路，然后择优决策，进入下一步行动。

这一方向仍有广阔的创新空间，但即便在“思考”这一部分，进展速度也非常快。无论是数学、编程、科学问题，还是游戏，这类系统都必须具备思考与规划能力，而不是简单地给出脑海中闪现的第一个答案。思考型系统的核心价值，就是不断修正和优化自身的推理过程。

基尔帕特里克：我之前看了《The Thinking Game》那部视频，一边观看一边做笔记，发现 DeepMind 团队其实很早就踏上了这条道路，而且和你们当年用强化学习（RL）解决问题的过程有许多相似之处。比如，AlphaFold 曾面临的数据瓶颈，就和我们现在在编程等领域缺乏专家数据的困境十分相似。这种情况，会让你产生似曾相识的感觉吗？

哈萨比斯：确实如此。我们很早就坚定选择了强化学习，这是 2010 年我们做出的首批关键决策之一，与深度学习并列。当时的 Atari 项目，是第一个能真正完成有趣任务的深度强化学习系统——它能够直接从屏幕像素中学习玩上世纪 70 年代的Atari游戏，而且表现超过任何人类玩家。更重要的是，它能“开箱即用”地玩任何 Atari 游戏，这种通用性证明了新技术具备规模化并发挥实际价值的潜力。

我个人从小下国际象棋时，就会思考如何优化自己的思维过程，这也促使我去研究神经科学，探索大脑的工作机制，并借助人工智能这一强大的工具，将智慧凝结为数字形态。当然，现有系统在某些方面的表现已经非常出色，但在一些相对简单的任务上仍有不足，比如高中数学、基础逻辑，或者某些经过特殊设计的小游戏。它们体现出一种“参差型智能”——在某些维度上表现惊人，但在另一些方面则很容易暴露弱点。

从机器人到通用助理Genie 3 的多维度潜力

在游戏 AI 中，我们需要在模型之上叠加“思考”或“规划”的能力。这是通往 AGI 的必经之路。当模型具备思考能力，就可以进一步延展到“深度思考”，甚至实现并行规划——也就是同时推演多条思路，然后择优决策，进入下一步行动。

基尔帕特里克：许多人看了Genie 3的演示后感到震撼，有人甚至夸张地说“这是模拟理论的证据”。它确实和用游戏推动强化学习发展有关。回顾Genie 3，你觉得结果和当初的预期一致吗？我觉得，提升模型玩游戏的能力，未必必然带来如今的世界模型。

哈萨比斯：Genie 3汇集了多条研究路径与想法。我们一直把棋类或电子游戏作为挑战环境，不仅用来推动算法进步，也用来合成数据。我们会构建极为逼真的虚拟环境，用来训练系统理解物理世界。

我们想要构建的世界模型，不仅要理解物理结构、材料特性、液体流动，还要理解生物和人类的行为，因为AGI必须理解物理世界，才能在其中运作。这对机器人至关重要，也对通用助理项目如Project Astra（Gemini Live）不可或缺。

验证世界模型的一种方法，就是让它生成与现实一致的虚拟世界，比如打开水龙头会有水流出，镜子里会映出自己等等。Genie 3之所以惊人，就在于它生成的世界具有一致性。你转身离开，再回头，世界保持原样。这说明它的底层物理理解相当出色。

基尔帕特里克：你认为用户将如何使用 Genie？我们的目标是仅将它作为改进Gemini和其他机器人项目的工具，还是你觉得它本身还有更多用途？

哈萨比斯：它在多个维度上都令人兴奋。首先，我们已经在用它进行训练。例如，我们有一个名为SIMA（Simulated Agent，模拟智能体）的游戏智能体，可以开箱即用地操作并玩一款现有的电脑游戏。它有时表现不错，有时不够理想。

令人有趣的是，我们可以把SIMA放进Genie 3里，相当于一个AI在另一个AI的“脑海”中行动。SIMA会根据目标（比如找到房间里的钥匙）发出操作指令，而Genie 3则实时生成游戏世界。这样可以创造无限的训练数据，对机器人训练或AGI系统的通用训练都有价值。

同时，它在互动娱乐领域也有巨大潜力。我有很多想法去打造下一代游戏，甚至可能催生一种介于电影与游戏之间的新型娱乐形式。

最后，从科学家的角度看，最有趣的是这能告诉我们关于现实世界、物理规律，甚至模拟理论的什么信息。当你在深夜生成整片虚拟世界时，你会不自觉地思考：现实世界的本质是什么？这也是我整个职业生涯推动自己用AI服务科学的动力所在。我认为，像Veo 3和Genie 3这样的模型，若换个角度观察，能给我们关于现实本质的启示。

AI的能力鸿沟强大生成力与低级错误并存

基尔帕特里克：这正好能回到我们之前谈到的“参差型智能”问题。一方面，我们已经有了能生成完整虚拟世界的惊人系统；另一方面，让 Gemini下国际象棋，我可能都能赢它，而且有时它甚至会违反规则。我们最近宣布了 DeepMind 与 Kaggle 合作推出“游戏竞技场”，让模型在各种游戏中对战并接受测试。你怎么看？

哈萨比斯：这反映了一个更普遍的问题——如今的系统（无论是 Gemini 还是竞争对手的模型）在很多方面都很强大：它们能从文本生成模拟世界，能理解视频，能解数学题、做科研。然而，用过这些聊天机器人的人都知道，它们的能力边界很容易被触碰到。

在我看来，这种缺乏一致性，正是它们距离实现完全AGI还差的一步。一个普通人不应该如此轻易就能发现系统的低级缺陷。我们或许已经解决了过去那种“数 strawberry 里的R”这种用于评估模型细节关注度的低级问题，但依然存在一些小学生都能轻松完成、而模型却失败的任务。这很可能是因为在推理、规划、记忆等方面，仍然缺少关键性的创新。

此外，我们现有的评测基准中，很多已经接近饱和。比如在 AIME 数学测试上，Deep Think 最近的成绩已经达到 99.2%，几乎没有提升空间，这甚至可能意味着测试本身已经失去区分力。因此，我们需要设计更新、更难、覆盖面更广的评测，用来考察模型的物理直觉、世界理解，以及安全性（比如防止欺骗行为）。

我对“游戏竞技场”非常期待，因为它延续了我们最初做游戏 AI 的初衷。游戏是干净的测试环境，有客观分数，没有人为主观打分；它们会随着系统能力的提升自动增加难度，还可以不断引入更复杂的游戏。未来甚至能让 AI 自创新游戏、彼此对战学习，从而避免数据泄露或过拟合。这种多智能体环境将成为长期有效的重要评测基准之一。

能力内化 VS 外部调用：经验驱动的决策

基尔帕特里克：我过去两年的感悟是，生活中的许多问题，本质上都是一种评测。工作表现是一种评测，你看待事物的方式也是评测。在游戏领域，我们有明确的约束条件和客观的结果，但一旦扩展到非游戏领域，“真值”就很难定义。比如，在人类日常任务中，如何构建强化学习环境？你觉得在非游戏环境中，我们该怎么捕捉这些特征？

哈萨比斯：如何定义奖励函数或目标函数，一直是强化学习在真实且混乱的环境中面临的最大挑战。现实世界中，并不存在单一的目标函数，而是多个目标并存，而且这些目标的权重会随着情绪、环境、职业阶段等因素不断变化。

我认为，未来的通用系统必须学会理解用户的真实意图，并将其转化为一组可优化的奖励函数。这涉及元认知或“元强化学习”（meta-RL）的研究——在主要系统之上再建立一个系统，用来推测主要系统的最优目标函数。这类研究在十年前的 AlphaGo、AlphaZero 游戏阶段我们就已经开始尝试，如今很可能会再次成为研究重点。

基尔帕特里克：我觉得我们应该现在就着手，因为感觉 DeepMind 十年前做的事，正好就是今天大家追赶的前沿。回到“思考趋势”和“游戏趋势”，我们历史上经历了多种模型扩展路径——预训练、后训练、数据扩展、算力扩展，后来又有了推理扩展，比如 Deep Think 就得益于推理能力的提升。现在似乎“工具”成了新的扩展维度。你觉得，给模型配备物理模拟器作为工具，会是未来的方向之一吗？

哈萨比斯：工具使用是 AI 系统最重要的能力之一。思考型系统的核心在于，它能在思考过程中主动调用工具，比如搜索引擎、数学程序、编程环境，然后基于工具提供的结果调整规划。

有趣的是，哪些能力应当放进主模型（即“主脑”），哪些应当作为外部工具，这在数字系统中并不像在人类身上那么清晰。对于人类来说，不属于身体的就是工具；但在 AI 中，这条界限很模糊。

比如，下棋能力是直接内置在主模型中，还是调用 Stockfish 或 AlphaZero 作为外部工具？经验表明，如果某项能力（如数学、编程）能提升整体推理水平，就应该放入主模型；但如果它可能削弱模型的其他通用能力，则更适合作为外部工具。这完全是一个经验性问题，需要在实践中不断试验和验证。

AGI的综合能力蓝图语言、多媒体与物理推理一体化

基尔帕特里克：很多开发者现在都会问，模型已经不再是过去那种静态的权重，而是在推理过程中能调用各种工具，功能越来越像一个完整的系统。这正在改变人们构建应用的方式。你怎么看这种从“模型”到“系统”的转变？对开发者有什么建议？

哈萨比斯：模型的进化速度非常快，尤其是当工具能力与规划、思考能力结合后，其潜力可能呈指数级扩张，因为它们可以用全新的方式组合使用工具。

我建议开发者多思考：哪些工具对 AI 的能力最有价值？然后着手构建这些工具。即便有了工具调用和智能体能力，这些系统本身还不是成品，它们依然需要大量的产品化工作。产品经理和设计师面临的挑战，是必须预判一年后的技术状态，并为那个未来去设计产品，同时允许底层引擎在 3 到 6 个月，甚至更短的周期内进行一次重大更新。

基尔帕特里克：现在感觉几乎是每两周就有一次更新。

哈萨比斯：确实是这种节奏，而且短期内不会改变。未来整个网络生态和应用的运作方式，都将因为智能体系统能够灵活使用工具而发生深刻变化。

基尔帕特里克：Genie 3 的进展令人震撼，很多人都迫不及待想亲手体验。我希望能尽快让更多用户用上它。从世界模型和 Genie 的角度看，下一步是什么？

哈萨比斯：我们正在努力提升 Genie 的运行效率，好让更多用户尽快体验。目前它还处于有限预览阶段。我们也在思考最佳的发布方式，希望用户能够分享自己创作的世界，互相体验、投票，从而形成一个活跃的社区。

但有一个关键问题是，如何保持世界生成的一致性——当某个提示生成了一个极具吸引力的世界，我们怎样确保后来者也能复现它？这是我们正在攻关的技术挑战之一。

更长远来看，Genie、Veo、Gemini 这些目前相对独立的模型，正逐渐走向融合，形成我们所谓的“全能模型”（Omni Model）。它既能处理语言、多媒体，又能进行物理推理和内容生成，这才是 AGI 应该具备的综合能力。

基尔帕特里克：我们之前还开玩笑说，Genie 是我们制作和玩游戏的绝佳借口。

哈萨比斯：没错。

基尔帕特里克：这样 DeepMind 就成了一家游戏公司了。

哈萨比斯：这是我的秘密计划。等 AGI 安全落地之后，我就会用这些工具去制作史上最伟大的游戏——那将是我的梦想成真。

基尔帕特里克：会是终极版的《主题公园》吗？

哈萨比斯：也许吧，不过我还有更宏大的游戏创意。

基尔帕特里克：我们在 AI Studio 里做了很多“氛围编程”功能，如果一切顺利，你在 AGI 诞生前就可以不断抛出这些创意，自己打造一个“德米斯游戏竞技场”。

哈萨比斯：这已经在我的高优先级待办清单上了。

基尔帕特里克：前段时间我们庆祝每月处理 980 万亿个 token，如今已经突破千万亿（quadrillion）大关，我们还特地为你准备了一个纪念品。

哈萨比斯：谢谢，这真是太棒了。

基尔帕特里克：我们还会做一些其他版本。

哈萨比斯：非常感谢。

基尔帕特里克：今天非常感谢你抽出时间做客，也感谢你和 DeepMind 团队为未来所付出的努力与深夜的思考。这次访谈很愉快。

哈萨比斯：我也很高兴能和你交流，谢谢。（文/腾讯科技特约编译无忌陆陆，编辑/海伦）

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.