诺奖得主谈「AGI试金石」：AI自创游戏并相互教学|数学|机器人|agi|棋盘游戏

诺奖得主谈「AGI试金石」：AI自创游戏并相互教学

2025-08-19 10:48:54　来源: 学术头条

北京举报

分享至

日前，诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 在一档访谈节目中，围绕人工智能（AI）技术的演进与未来发展趋势进行了分享。

在访谈中，Demis 分享了从游戏 AI 到当今推理模型的演变历程，探讨了 Genie 3 等世界模型如何帮助 AI 理解现实，以及为何需要像 Kaggle Game Arena 这样的测试平台来评估通用人工智能（AGI）的新进展。

整个访谈呈现了 AI 从专项智能向全能模型迈进的路径，为理解 AGI 的未来发展方向提供了独特视角。

学术头条在不改变原文大意的情况下，对节选内容做了精编。如下：

Genie 3：让 AI 理解物理世界

Demis 表示，Genie 3 是 DeepMind 多个研究分支融合的成果，是多种想法的结合。其核心目标是构建 “世界模型” —— 即让 AI 理解物理世界的规律，包括物理结构、材料特性、液体流动、生物行为等。

他们一直把棋盘游戏作为一个具有挑战性的领域，来改进 AI 算法思想。在过去，人们经常把电脑游戏当作挑战，也用来创建合成数据。无论是过去和现在，研究人员都在使用大量的模拟环境，非常逼真的环境，如 3D 游戏引擎，来为系统创建更多训练数据，以帮助它们理解物理世界。

Demis 指出，“人类不仅生活在语言和数学世界中，更身处物理世界中”，AGI 若想要真正发挥作用，显然需要理解物理世界这一现实基础。无论是依赖对物理世界预判的机器人技术的突破，还是 AI 日常助手，对时空背景的把握，都离不开世界模型的支撑。

此外，它还需要理解使用者所处的时空背景，所以需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一，就是能够生成这个世界。

“有很多方法可以测试你的世界模型的有效性和深度，但一个很好的方法是让它进行逆向操作，生成关于这个世界的一些东西。”

为训练这一能力，他们利用 3D 游戏引擎等模拟环境生成大量数据，让 AI 在虚拟场景中学习现实规律。Genie 3 最显著的特点是能生成具有一致性的世界：

当用户暂时离开其创建的虚拟场景，再次返回时，场景状态与离开时保持一致。这种特性证明它并非随机生成内容，而是对世界运作建立了稳定的底层模型，例如，“打开水龙头会有液体流出”“镜子能反射出影像” 等逻辑都能在生成过程中得到体现。

在应用层面，Genie 3 已用于内部训练。DeepMind 的游戏 agent SIMA，可以直接操控并玩现有的电脑游戏。如果将其放入 Genie 3 中，那么就能得到一个 AI 在另一个 AI 的头脑中进行游戏这种结果。SIMA 会决定采取什么行动，并发出行动指令，Genie 3 则实时生成对应的环境变化，形成 “一个 AI 生成世界、另一个 AI 在其中探索” 的闭环。这一模式能为机器人技术、AGI 系统训练创建无限的训练数据。

Demis 提到，Genie 3 在互动娱乐领域有潜在价值，可能催生介于电影与游戏之间的新型娱乐形式。从科学视角看，它与视频模型共同为探索现实本质提供了新维度 ——通过 AI 对世界的模拟与生成，人类得以从不同角度思考 “现实的本质”。

Game Arena：面向AGI的动态评估基准

为应对 AI 系统 “锯齿智能” 等问题，Google DeepMind 与 Kaggle 合作推出了 Game Arena，作为评估 AGI 进展的新测试平台。让模型去玩各种不同的游戏，并测试它们的能力。

在“首届”大模型对抗赛决赛中，OpenAI 的 o3 击败了马斯克的 Grok 4，成功夺冠。谷歌的Gemini 2.5 Pro 则在半决赛中输给了Grok 4。

在 Demis 看来，这些系统要成为真正的 AGI，所缺少的东西之一就是一致性。Demis 指出，当前 AI 系统存在能力不均衡的现象：它们能在 IMO 中获得金牌，却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误；能根据文本提示生成模拟世界、理解视频，但仍有一些相当简单的事情，小学生都能轻松做到，而这些系统却做不到。这种不一致性是 AGI 发展需突破的关键障碍。

他认为，现有评估基准存在局限性。“可能在推理、规划、记忆方面还缺少一些能力，除了扩展之外，这些领域可能还需要一两项新的创新。”

这些系统，包括 Gemini，都是非常通用的。但目前的研究团队所使用的很多 benchmark 已经开始变得饱和。

以数学领域的 AIME 为例，DeepMind 的模型的最新结果已达到 99.2% 的正确率，意味着已经进入了一个回报非常有限的阶段，这些 benchmark 正迅速达到饱和，甚至可能因测试本身的误差影响评估效果。

因此，需要更难、更广泛的 benchmark，涵盖物理世界理解、直觉物理、物理智能及安全特性等维度。

Game Arena 的设计基于游戏场景，使它具备多方面的优势：

首先，游戏是非常纯粹的测试场所。你可以通过游戏得到 Elos 等级分，它们是非常客观的性能衡量标准。没有主观性，不需要让人类来进行 A/B 测试、决定评级等等，从这个意义上来说它是非常科学的。

其次，随着 AI 系统能力提升，游戏难度可自动调整。系统在比赛中相互较量，能力增强则测试自动升级，Game Arena 的全部意义就在于让最优秀的模型相互竞争。

另外，随着系统越来越完善，他们还可以逐步在 Game Arena 中引入更复杂的游戏，从象棋扩展至数千种，最终形成综合评分，评估 AI 在多领域的通用能力。它们应该能在所有游戏中都表现出色，既可以是电脑游戏，也可以是棋盘游戏。

在他看来，或许最终 AI 系统应该能发明自己的游戏，然后教给其他 AI 系统，让它们去学习，就像是学习一个从未存在过的新游戏，这样就不可能出现过度拟合训练数据之类的情况了。Demis 有很多关于这种多 agent 环境的想法，他同时也认为 Game Arena 最终应该能够支持这种环境，成为一个非常重要且影响深远的 benchmark。

在更混乱或更贴近现实世界的领域，如何确定有待优化的奖励函数或目标函数，这一直是强化学习面临的难题。在人类世界里，没有单一的目标函数，情况非常复杂。人是多目标的，会根据其他状态，比如情绪状态、物理环境以及在职业生涯中的位置等所有这些因素，不断地调整不同目标的权重。但不管怎样，Demis 认为，我们总能凭借自己的智慧度过难关，大致能弄清楚正确的“北极星”是什么。

同时，Demis 指出，通用系统也必须做到这一点，它们要学会理解人类用户想要实现的目标，然后弄清楚如何将其转化为一组有用的奖励函数来进行优化。

Demis 强调，Game Arena 的意义在于回归 DeepMind 研究本质：早期以游戏为挑战改进 AI 算法，如今游戏仍是理想测试场。未来，还需要支持 AI 自创游戏并相互教学，避免训练数据过度拟合，更真实地检验通用学习能力。

作为 AGI 发展的重要基准之一，Game Arena 将与其他新型评估工具共同作用，确保 AI 系统在认知能力的各个维度得到全面检验。

One more thing

除 Genie 3 和 Game Arena 外，Demis 还谈到了其他大模型相关热门话题。

Thinking 模型的演进是重要方向。以 Deep Think 为代表的系统，延续了 AlphaGo 等早期游戏 AI 中基于 agent 的系统思路，强调 AI 的思考、规划与推理能力。这类系统可进行深度思考和并行规划，在数学、编程、科学问题等领域通过反复推演优化结果，而非直接输出初始结论。Demis 认为，这是实现 AGI 的必要路径。

工具使用成为 AI 能力扩展的新维度。Thinking模型在推理过程中可调用搜索功能、数学程序、编码工具等，更新规划方案。对于数字系统而言，“工具” 与 “主模型能力” 的边界存在模糊性，比如象棋能力是整合并入主模型，还是作为工具调用，需要通过实证判断。若某种能力有助于提升其他能力，则整合入主模型，反之则考虑作为工具。

AI 正从权重模型向完整系统转变。早期模型的输入输出模式较为简单，而如今的系统能结合工具使用、规划与思考能力，实现更复杂的功能。这种转变要求产品设计具备前瞻性，需要预判一年后的技术水平，允许底层引擎定期更新（周期可能短至三到六个月），以适应技术的快速迭代。

作者：小瑜

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.