网易首页 > 网易号 > 正文 申请入驻

DeepMind CEO定义世界模型标准:不仅理解物理世界,还能创造它

0
分享至

来源:腾讯科技

从与现实难辨的AI视频,到细致到流水与倒影都符合物理的虚拟世界,再到会在推理中主动调用工具自我修正的模型——这并非科幻小说,而是DeepMind最新的AI工具,已经展现的惊人能力。

8月13日消息,谷歌DeepMind首席执行官德米斯・哈萨比斯(Demis Hassabis)近日做客播客节目《Release Notes》,全面阐述了DeepMind最新一系列技术突破背后的思路与战略布局,其中世界模型Genie 3的突破性进展成为核心亮点。

在这场深度对话中,他勾勒出一个令人振奋又充满挑战的AI新纪元:从AlphaGo征服围棋,到Deep Think斩获数学奥赛金牌;从生成逼真世界的Genie 3,到即将诞生的“全能模型”,我们正站在通向AGI的关键转折点。然而,即便AI已能创造一个完整的虚拟宇宙,它依然可能在国际象棋中违规行棋,这种“参差型智能”的悖论,正揭示了人工智能最深层的秘密。

哈萨比斯指出,“思考型模型”the thinking models是通向通用人工智能(AGI)的必经之路;DeepMind的终极目标是推出融合语言、多媒体、物理推理与生成能力的全能模型(Omni Model),其核心支撑正是世界模型的持续进化,最终将实现全面且一致的智能表现,推动通用人工智能(AGI)安全落地。

此次访谈由谷歌AI Studio产品负责人洛根・基尔帕特里克(Logan Kilpatrick)主持,以下为对话内容实录:

思考型模型:从游戏AI到AGI的演进之路

基尔帕特里克:今天我们的嘉宾是谷歌DeepMind首席执行官德米斯·哈萨比斯。你好德米斯,感谢你的到来,很高兴能一起聊聊我们在过去几个月里取得的大量发布成果和进展。

哈萨比斯:你好,很高兴来到这里。

基尔帕特里克:我想先谈谈这种前所未有的进展势头。我看到DeepMind近期在不断推出各种成果,包括Deep Think、IMO金牌、Genie 3,还有其他大约五十个项目,在过去两个月内接连面世,快到让人忘记它们的存在,因为一切都在飞速推进。我想听听你对这种进展与势头的总体看法。

哈萨比斯:是的,这种情形令人振奋。过去几年,我们一直在积蓄力量,加快发布和研发的节奏,如今正看到这些努力的结果。我认为这是行业一个非常令人兴奋的时刻。几乎每天都有新成果面世,我们团队几乎每天都在发布新东西,即便是在内部,也很难跟上进度,更不用说整个领域了。看到这一切我非常自豪,也对我们近期的一些成果感到非常满意。

基尔帕特里克:那你是如何看待 Deep Think 的呢?我个人最兴奋的一点,是该模型的一个版本如今已向 Gemini 应用的订阅用户开放,让大家能够真正亲手体验。我觉得,这种一边推进技术研发、一边让用户直接上手的结合非常美妙。那么,从 Deep Think 的角度来看,你会如何思考?

哈萨比斯:我认为,“思考型”模型的出现,可以看作是对我们早期游戏 AI 工作的一种回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以来,我们一直在研发“基于智能体的系统”。在早期,这意味着系统能够完成一个完整的任务,通常是将游戏玩到极致,因为游戏有明确的目标。当时我们的模型是单一领域的游戏模型,而如今我们拥有功能强大的多模态模型,既能处理语言,也能理解和整合其他信息。

在游戏AI中,我们需要在模型之上叠加“思考”或“规划”的能力。这是通往 AGI 的必经之路。当模型具备思考能力,就可以进一步延展到“深度思考”,甚至实现并行规划——也就是同时推演多条思路,然后择优决策,进入下一步行动。

这一方向仍有广阔的创新空间,但即便在“思考”这一部分,进展速度也非常快。无论是数学、编程、科学问题,还是游戏,这类系统都必须具备思考与规划能力,而不是简单地给出脑海中闪现的第一个答案。思考型系统的核心价值,就是不断修正和优化自身的推理过程。

基尔帕特里克:我之前看了《The Thinking Game》那部视频,一边观看一边做笔记,发现 DeepMind 团队其实很早就踏上了这条道路,而且和你们当年用强化学习(RL)解决问题的过程有许多相似之处。比如,AlphaFold 曾面临的数据瓶颈,就和我们现在在编程等领域缺乏专家数据的困境十分相似。这种情况,会让你产生似曾相识的感觉吗?

哈萨比斯:确实如此。我们很早就坚定选择了强化学习,这是 2010 年我们做出的首批关键决策之一,与深度学习并列。当时的 Atari 项目,是第一个能真正完成有趣任务的深度强化学习系统——它能够直接从屏幕像素中学习玩上世纪 70 年代的Atari游戏,而且表现超过任何人类玩家。更重要的是,它能“开箱即用”地玩任何 Atari 游戏,这种通用性证明了新技术具备规模化并发挥实际价值的潜力。

我个人从小下国际象棋时,就会思考如何优化自己的思维过程,这也促使我去研究神经科学,探索大脑的工作机制,并借助人工智能这一强大的工具,将智慧凝结为数字形态。当然,现有系统在某些方面的表现已经非常出色,但在一些相对简单的任务上仍有不足,比如高中数学、基础逻辑,或者某些经过特殊设计的小游戏。它们体现出一种“参差型智能”——在某些维度上表现惊人,但在另一些方面则很容易暴露弱点。

从机器人到通用助理Genie 3 的多维度潜力

基尔帕特里克:那你是如何看待 Deep Think 的呢?我个人最兴奋的一点,是该模型的一个版本如今已向 Gemini 应用的订阅用户开放,让大家能够真正亲手体验。我觉得,这种一边推进技术研发、一边让用户直接上手的结合非常美妙。那么,从 Deep Think 的角度来看,你会如何思考?

哈萨比斯:我认为,“思考型”模型的出现,可以看作是对我们早期游戏 AI 工作的一种回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以来,我们一直在研发“基于智能体的系统”。在早期,这意味着系统能够完成一个完整的任务,通常是将游戏玩到极致,因为游戏有明确的目标。当时我们的模型是单一领域的游戏模型,而如今我们拥有功能强大的多模态模型,既能处理语言,也能理解和整合其他信息。

在游戏 AI 中,我们需要在模型之上叠加“思考”或“规划”的能力。这是通往 AGI 的必经之路。当模型具备思考能力,就可以进一步延展到“深度思考”,甚至实现并行规划——也就是同时推演多条思路,然后择优决策,进入下一步行动。

这一方向仍有广阔的创新空间,但即便在“思考”这一部分,进展速度也非常快。无论是数学、编程、科学问题,还是游戏,这类系统都必须具备思考与规划能力,而不是简单地给出脑海中闪现的第一个答案。思考型系统的核心价值,就是不断修正和优化自身的推理过程。

基尔帕特里克:许多人看了Genie 3的演示后感到震撼,有人甚至夸张地说“这是模拟理论的证据”。它确实和用游戏推动强化学习发展有关。回顾Genie 3,你觉得结果和当初的预期一致吗?我觉得,提升模型玩游戏的能力,未必必然带来如今的世界模型。

哈萨比斯:Genie 3汇集了多条研究路径与想法。我们一直把棋类或电子游戏作为挑战环境,不仅用来推动算法进步,也用来合成数据。我们会构建极为逼真的虚拟环境,用来训练系统理解物理世界。

我们想要构建的世界模型,不仅要理解物理结构、材料特性、液体流动,还要理解生物和人类的行为,因为AGI必须理解物理世界,才能在其中运作。这对机器人至关重要,也对通用助理项目如Project Astra(Gemini Live)不可或缺。

验证世界模型的一种方法,就是让它生成与现实一致的虚拟世界,比如打开水龙头会有水流出,镜子里会映出自己等等。Genie 3之所以惊人,就在于它生成的世界具有一致性。你转身离开,再回头,世界保持原样。这说明它的底层物理理解相当出色。

基尔帕特里克:你认为用户将如何使用 Genie?我们的目标是仅将它作为改进Gemini和其他机器人项目的工具,还是你觉得它本身还有更多用途?

哈萨比斯:它在多个维度上都令人兴奋。首先,我们已经在用它进行训练。例如,我们有一个名为SIMA(Simulated Agent,模拟智能体)的游戏智能体,可以开箱即用地操作并玩一款现有的电脑游戏。它有时表现不错,有时不够理想。

令人有趣的是,我们可以把SIMA放进Genie 3里,相当于一个AI在另一个AI的“脑海”中行动。SIMA会根据目标(比如找到房间里的钥匙)发出操作指令,而Genie 3则实时生成游戏世界。这样可以创造无限的训练数据,对机器人训练或AGI系统的通用训练都有价值。

同时,它在互动娱乐领域也有巨大潜力。我有很多想法去打造下一代游戏,甚至可能催生一种介于电影与游戏之间的新型娱乐形式。

最后,从科学家的角度看,最有趣的是这能告诉我们关于现实世界、物理规律,甚至模拟理论的什么信息。当你在深夜生成整片虚拟世界时,你会不自觉地思考:现实世界的本质是什么?这也是我整个职业生涯推动自己用AI服务科学的动力所在。我认为,像Veo 3和Genie 3这样的模型,若换个角度观察,能给我们关于现实本质的启示。

AI的能力鸿沟强大生成力与低级错误并存

基尔帕特里克:这正好能回到我们之前谈到的“参差型智能”问题。一方面,我们已经有了能生成完整虚拟世界的惊人系统;另一方面,让 Gemini下国际象棋,我可能都能赢它,而且有时它甚至会违反规则。我们最近宣布了 DeepMind 与 Kaggle 合作推出“游戏竞技场”,让模型在各种游戏中对战并接受测试。你怎么看?

哈萨比斯:这反映了一个更普遍的问题——如今的系统(无论是 Gemini 还是竞争对手的模型)在很多方面都很强大:它们能从文本生成模拟世界,能理解视频,能解数学题、做科研。然而,用过这些聊天机器人的人都知道,它们的能力边界很容易被触碰到。

在我看来,这种缺乏一致性,正是它们距离实现完全AGI还差的一步。一个普通人不应该如此轻易就能发现系统的低级缺陷。我们或许已经解决了过去那种“数 strawberry 里的R”这种用于评估模型细节关注度的低级问题,但依然存在一些小学生都能轻松完成、而模型却失败的任务。这很可能是因为在推理、规划、记忆等方面,仍然缺少关键性的创新。

此外,我们现有的评测基准中,很多已经接近饱和。比如在 AIME 数学测试上,Deep Think 最近的成绩已经达到 99.2%,几乎没有提升空间,这甚至可能意味着测试本身已经失去区分力。因此,我们需要设计更新、更难、覆盖面更广的评测,用来考察模型的物理直觉、世界理解,以及安全性(比如防止欺骗行为)。

我对“游戏竞技场”非常期待,因为它延续了我们最初做游戏 AI 的初衷。游戏是干净的测试环境,有客观分数,没有人为主观打分;它们会随着系统能力的提升自动增加难度,还可以不断引入更复杂的游戏。未来甚至能让 AI 自创新游戏、彼此对战学习,从而避免数据泄露或过拟合。这种多智能体环境将成为长期有效的重要评测基准之一。

能力内化 VS 外部调用:经验驱动的决策

基尔帕特里克:我过去两年的感悟是,生活中的许多问题,本质上都是一种评测。工作表现是一种评测,你看待事物的方式也是评测。在游戏领域,我们有明确的约束条件和客观的结果,但一旦扩展到非游戏领域,“真值”就很难定义。比如,在人类日常任务中,如何构建强化学习环境?你觉得在非游戏环境中,我们该怎么捕捉这些特征?

哈萨比斯:如何定义奖励函数或目标函数,一直是强化学习在真实且混乱的环境中面临的最大挑战。现实世界中,并不存在单一的目标函数,而是多个目标并存,而且这些目标的权重会随着情绪、环境、职业阶段等因素不断变化。

我认为,未来的通用系统必须学会理解用户的真实意图,并将其转化为一组可优化的奖励函数。这涉及元认知或“元强化学习”(meta-RL)的研究——在主要系统之上再建立一个系统,用来推测主要系统的最优目标函数。这类研究在十年前的 AlphaGo、AlphaZero 游戏阶段我们就已经开始尝试,如今很可能会再次成为研究重点。

基尔帕特里克:我觉得我们应该现在就着手,因为感觉 DeepMind 十年前做的事,正好就是今天大家追赶的前沿。回到“思考趋势”和“游戏趋势”,我们历史上经历了多种模型扩展路径——预训练、后训练、数据扩展、算力扩展,后来又有了推理扩展,比如 Deep Think 就得益于推理能力的提升。现在似乎“工具”成了新的扩展维度。你觉得,给模型配备物理模拟器作为工具,会是未来的方向之一吗?

哈萨比斯:工具使用是 AI 系统最重要的能力之一。思考型系统的核心在于,它能在思考过程中主动调用工具,比如搜索引擎、数学程序、编程环境,然后基于工具提供的结果调整规划。

有趣的是,哪些能力应当放进主模型(即“主脑”),哪些应当作为外部工具,这在数字系统中并不像在人类身上那么清晰。对于人类来说,不属于身体的就是工具;但在 AI 中,这条界限很模糊。

比如,下棋能力是直接内置在主模型中,还是调用 Stockfish 或 AlphaZero 作为外部工具?经验表明,如果某项能力(如数学、编程)能提升整体推理水平,就应该放入主模型;但如果它可能削弱模型的其他通用能力,则更适合作为外部工具。这完全是一个经验性问题,需要在实践中不断试验和验证。

AGI的综合能力蓝图语言、多媒体与物理推理一体化

基尔帕特里克:很多开发者现在都会问,模型已经不再是过去那种静态的权重,而是在推理过程中能调用各种工具,功能越来越像一个完整的系统。这正在改变人们构建应用的方式。你怎么看这种从“模型”到“系统”的转变?对开发者有什么建议?

哈萨比斯:模型的进化速度非常快,尤其是当工具能力与规划、思考能力结合后,其潜力可能呈指数级扩张,因为它们可以用全新的方式组合使用工具。

我建议开发者多思考:哪些工具对 AI 的能力最有价值?然后着手构建这些工具。即便有了工具调用和智能体能力,这些系统本身还不是成品,它们依然需要大量的产品化工作。产品经理和设计师面临的挑战,是必须预判一年后的技术状态,并为那个未来去设计产品,同时允许底层引擎在 3 到 6 个月,甚至更短的周期内进行一次重大更新。

基尔帕特里克:现在感觉几乎是每两周就有一次更新。

哈萨比斯确实是这种节奏,而且短期内不会改变。未来整个网络生态和应用的运作方式,都将因为智能体系统能够灵活使用工具而发生深刻变化。

基尔帕特里克Genie 3 的进展令人震撼,很多人都迫不及待想亲手体验。我希望能尽快让更多用户用上它。从世界模型和 Genie 的角度看,下一步是什么?

哈萨比斯我们正在努力提升 Genie 的运行效率,好让更多用户尽快体验。目前它还处于有限预览阶段。我们也在思考最佳的发布方式,希望用户能够分享自己创作的世界,互相体验、投票,从而形成一个活跃的社区。

但有一个关键问题是,如何保持世界生成的一致性——当某个提示生成了一个极具吸引力的世界,我们怎样确保后来者也能复现它?这是我们正在攻关的技术挑战之一。

更长远来看,Genie、Veo、Gemini 这些目前相对独立的模型,正逐渐走向融合,形成我们所谓的“全能模型”(Omni Model)。它既能处理语言、多媒体,又能进行物理推理和内容生成,这才是 AGI 应该具备的综合能力。

基尔帕特里克我们之前还开玩笑说,Genie 是我们制作和玩游戏的绝佳借口。

哈萨比斯没错。

基尔帕特里克这样 DeepMind 就成了一家游戏公司了。

哈萨比斯:这是我的秘密计划。等 AGI 安全落地之后,我就会用这些工具去制作史上最伟大的游戏——那将是我的梦想成真。

基尔帕特里克会是终极版的《主题公园》吗?

哈萨比斯:也许吧,不过我还有更宏大的游戏创意。

基尔帕特里克:我们在 AI Studio 里做了很多“氛围编程”功能,如果一切顺利,你在 AGI 诞生前就可以不断抛出这些创意,自己打造一个“德米斯游戏竞技场”。

哈萨比斯:这已经在我的高优先级待办清单上了。

基尔帕特里克:前段时间我们庆祝每月处理 980 万亿个 token,如今已经突破千万亿(quadrillion)大关,我们还特地为你准备了一个纪念品。

哈萨比斯:谢谢,这真是太棒了。

基尔帕特里克:我们还会做一些其他版本。

哈萨比斯:非常感谢。

基尔帕特里克:今天非常感谢你抽出时间做客,也感谢你和 DeepMind 团队为未来所付出的努力与深夜的思考。这次访谈很愉快。

哈萨比斯:我也很高兴能和你交流,谢谢。(文/腾讯科技特约编译无忌陆陆,编辑/海伦)

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
什么是美?这群北体青年给出了最“不设限”的答案

什么是美?这群北体青年给出了最“不设限”的答案

网易新闻出品
2026-04-24 15:59:19
大闹亚航的假空姐社会性死亡!“底裤”被扒,正脸流出,十级美颜

大闹亚航的假空姐社会性死亡!“底裤”被扒,正脸流出,十级美颜

翰飞观事
2026-04-24 19:39:03
丢G3关键战,乌度卡再次甩锅!点名怒批一人,透露杜兰特何时复出

丢G3关键战,乌度卡再次甩锅!点名怒批一人,透露杜兰特何时复出

萌兰聊个球
2026-04-25 15:22:11
张军失联背后四大影响曝光!李永波巧妙脱身,刘国梁成舆论焦点

张军失联背后四大影响曝光!李永波巧妙脱身,刘国梁成舆论焦点

小椰的奶奶
2026-04-25 11:12:21
医院判定脑积水 7岁“脑瘫”男童被查出出生就遭受颅骨骨折

医院判定脑积水 7岁“脑瘫”男童被查出出生就遭受颅骨骨折

大象新闻
2026-04-25 10:21:09
天天315|“0糖是商标”,东鹏特饮被骂上热搜股价下跌

天天315|“0糖是商标”,东鹏特饮被骂上热搜股价下跌

齐鲁壹点
2026-04-25 06:43:07
多艘船通过霍尔木兹海峡!海峡通行步骤曝光:共分4步,伊朗审查设5档国籍分级,“越友好越宽松”,收多少钱取决于是哪国的船

多艘船通过霍尔木兹海峡!海峡通行步骤曝光:共分4步,伊朗审查设5档国籍分级,“越友好越宽松”,收多少钱取决于是哪国的船

扬子晚报
2026-04-25 07:09:10
学历贬值到什么程度了:超5900名中小学老师拥有博士学历!

学历贬值到什么程度了:超5900名中小学老师拥有博士学历!

灯锦年
2026-04-25 12:03:48
日本网友疯换中文手机界面,直呼清爽十倍,中国文化悄悄出圈!

日本网友疯换中文手机界面,直呼清爽十倍,中国文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
250万赔偿不算啥?官方介入,崔丽丽事件“创先河”,释放3大信号

250万赔偿不算啥?官方介入,崔丽丽事件“创先河”,释放3大信号

天天热点见闻
2026-04-25 06:27:01
发现一个现象:根据历史规律,中国可能成地球上最后一个超级大国

发现一个现象:根据历史规律,中国可能成地球上最后一个超级大国

鹤羽说个事
2026-04-23 22:45:59
马尾大波浪,全程嗨丝,太顶了

马尾大波浪,全程嗨丝,太顶了

贵圈真乱
2026-04-25 13:54:21
提前起飞10分钟,大学生把海航告了

提前起飞10分钟,大学生把海航告了

中国新闻周刊
2026-04-24 18:21:10
观察|团结还是分裂?新旧秩序交叠下的伊朗政权谜题

观察|团结还是分裂?新旧秩序交叠下的伊朗政权谜题

澎湃新闻
2026-04-25 07:16:34
原村支书开铲车当着民警面把人埋了?网友质疑民警未及时制止;山西代县公安局:已向警督部门反馈,正处置

原村支书开铲车当着民警面把人埋了?网友质疑民警未及时制止;山西代县公安局:已向警督部门反馈,正处置

大风新闻
2026-04-24 17:19:02
震惊!网传云南某明星演唱会,因舞台像某标志被叫停,真相来了…

震惊!网传云南某明星演唱会,因舞台像某标志被叫停,真相来了…

火山詩话
2026-04-24 10:39:54
穆杰塔巴伤情曝光,比外界想象的更严重,他用了一招终结斩首战术

穆杰塔巴伤情曝光,比外界想象的更严重,他用了一招终结斩首战术

温读史
2026-04-25 01:18:21
成都一小区凌晨失火5死2伤,居民称多层楼外墙被熏黑,社区已安置起火楼栋居民

成都一小区凌晨失火5死2伤,居民称多层楼外墙被熏黑,社区已安置起火楼栋居民

极目新闻
2026-04-25 13:22:54
光模块只是“开胃菜”!光通信全链“七大天王”,真正黑马全梳理

光模块只是“开胃菜”!光通信全链“七大天王”,真正黑马全梳理

Thurman在昆明
2026-04-25 11:29:08
霍尔木兹海峡封锁,美国能源出口飙升,二战以来首次接近成为原油净出口国

霍尔木兹海峡封锁,美国能源出口飙升,二战以来首次接近成为原油净出口国

红星新闻
2026-04-25 12:32:20
2026-04-25 15:39:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4685文章数 37452关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

哈啰变速车1.5小时收费高达45元 游客直呼:骑不起

头条要闻

哈啰变速车1.5小时收费高达45元 游客直呼:骑不起

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

本地
房产
艺术
时尚
公开课

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

艺术要闻

荒废十多年!福建石狮“最美烂尾楼”,德国品牌接盘了

上新|| 入夏第一件短袖,买它!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版