网易首页 > 网易号 > 正文 申请入驻

诺奖得主谈「AGI试金石」:AI自创游戏并相互教学

0
分享至

日前,诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 在一档访谈节目中,围绕人工智能(AI)技术的演进与未来发展趋势进行了分享。

在访谈中,Demis 分享了从游戏 AI 到当今推理模型的演变历程,探讨了 Genie 3 等世界模型如何帮助 AI 理解现实,以及为何需要像 Kaggle Game Arena 这样的测试平台来评估通用人工智能(AGI)的新进展。

整个访谈呈现了 AI 从专项智能向全能模型迈进的路径,为理解 AGI 的未来发展方向提供了独特视角。

学术头条在不改变原文大意的情况下,对节选内容做了精编。如下:

Genie 3:让 AI 理解物理世界

Demis 表示,Genie 3 是 DeepMind 多个研究分支融合的成果,是多种想法的结合。其核心目标是构建 “世界模型” —— 即让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等。

他们一直把棋盘游戏作为一个具有挑战性的领域,来改进 AI 算法思想。在过去,人们经常把电脑游戏当作挑战,也用来创建合成数据。无论是过去和现在,研究人员都在使用大量的模拟环境,非常逼真的环境,如 3D 游戏引擎,来为系统创建更多训练数据,以帮助它们理解物理世界。

Demis 指出,“人类不仅生活在语言和数学世界中,更身处物理世界中”,AGI 若想要真正发挥作用,显然需要理解物理世界这一现实基础。无论是依赖对物理世界预判的机器人技术的突破,还是 AI 日常助手,对时空背景的把握,都离不开世界模型的支撑。

此外,它还需要理解使用者所处的时空背景,所以需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一,就是能够生成这个世界。

“有很多方法可以测试你的世界模型的有效性和深度,但一个很好的方法是让它进行逆向操作,生成关于这个世界的一些东西。”

为训练这一能力,他们利用 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律。Genie 3 最显著的特点是能生成具有一致性的世界:

当用户暂时离开其创建的虚拟场景,再次返回时,场景状态与离开时保持一致。这种特性证明它并非随机生成内容,而是对世界运作建立了稳定的底层模型,例如,“打开水龙头会有液体流出”“镜子能反射出影像” 等逻辑都能在生成过程中得到体现。

在应用层面,Genie 3 已用于内部训练。DeepMind 的游戏 agent SIMA,可以直接操控并玩现有的电脑游戏。如果将其放入 Genie 3 中,那么就能得到一个 AI 在另一个 AI 的头脑中进行游戏这种结果。SIMA 会决定采取什么行动,并发出行动指令,Genie 3 则实时生成对应的环境变化,形成 “一个 AI 生成世界、另一个 AI 在其中探索” 的闭环。这一模式能为机器人技术、AGI 系统训练创建无限的训练数据。

Demis 提到,Genie 3 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式。从科学视角看,它与视频模型共同为探索现实本质提供了新维度 ——通过 AI 对世界的模拟与生成,人类得以从不同角度思考 “现实的本质”。

Game Arena:面向AGI的动态评估基准

为应对 AI 系统 “锯齿智能” 等问题,Google DeepMind 与 Kaggle 合作推出了 Game Arena,作为评估 AGI 进展的新测试平台。让模型去玩各种不同的游戏,并测试它们的能力。

在“首届”大模型对抗赛决赛中,OpenAI 的 o3 击败了马斯克的 Grok 4,成功夺冠。谷歌的Gemini 2.5 Pro 则在半决赛中输给了Grok 4。

在 Demis 看来,这些系统要成为真正的 AGI,所缺少的东西之一就是一致性。Demis 指出,当前 AI 系统存在能力不均衡的现象:它们能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误;能根据文本提示生成模拟世界、理解视频,但仍有一些相当简单的事情,小学生都能轻松做到,而这些系统却做不到。这种不一致性是 AGI 发展需突破的关键障碍。

他认为,现有评估基准存在局限性。“可能在推理、规划、记忆方面还缺少一些能力,除了扩展之外,这些领域可能还需要一两项新的创新。”

这些系统,包括 Gemini,都是非常通用的。但目前的研究团队所使用的很多 benchmark 已经开始变得饱和。

以数学领域的 AIME 为例,DeepMind 的模型的最新结果已达到 99.2% 的正确率,意味着已经进入了一个回报非常有限的阶段,这些 benchmark 正迅速达到饱和,甚至可能因测试本身的误差影响评估效果。

因此,需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度。

Game Arena 的设计基于游戏场景,使它具备多方面的优势:

首先,游戏是非常纯粹的测试场所。你可以通过游戏得到 Elos 等级分,它们是非常客观的性能衡量标准。没有主观性,不需要让人类来进行 A/B 测试、决定评级等等,从这个意义上来说它是非常科学的。

其次,随着 AI 系统能力提升,游戏难度可自动调整。系统在比赛中相互较量,能力增强则测试自动升级,Game Arena 的全部意义就在于让最优秀的模型相互竞争。

另外,随着系统越来越完善,他们还可以逐步在 Game Arena 中引入更复杂的游戏,从象棋扩展至数千种,最终形成综合评分,评估 AI 在多领域的通用能力。它们应该能在所有游戏中都表现出色,既可以是电脑游戏,也可以是棋盘游戏。

在他看来,或许最终 AI 系统应该能发明自己的游戏,然后教给其他 AI 系统,让它们去学习,就像是学习一个从未存在过的新游戏,这样就不可能出现过度拟合训练数据之类的情况了。Demis 有很多关于这种多 agent 环境的想法,他同时也认为 Game Arena 最终应该能够支持这种环境,成为一个非常重要且影响深远的 benchmark。

在更混乱或更贴近现实世界的领域,如何确定有待优化的奖励函数或目标函数,这一直是强化学习面临的难题。在人类世界里,没有单一的目标函数,情况非常复杂。人是多目标的,会根据其他状态,比如情绪状态、物理环境以及在职业生涯中的位置等所有这些因素,不断地调整不同目标的权重。但不管怎样,Demis 认为,我们总能凭借自己的智慧度过难关,大致能弄清楚正确的“北极星”是什么。

同时,Demis 指出,通用系统也必须做到这一点,它们要学会理解人类用户想要实现的目标,然后弄清楚如何将其转化为一组有用的奖励函数来进行优化。

Demis 强调,Game Arena 的意义在于回归 DeepMind 研究本质:早期以游戏为挑战改进 AI 算法,如今游戏仍是理想测试场。未来,还需要支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实地检验通用学习能力。

作为 AGI 发展的重要基准之一,Game Arena 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验。

One more thing

除 Genie 3 和 Game Arena 外,Demis 还谈到了其他大模型相关热门话题。

Thinking 模型的演进是重要方向。以 Deep Think 为代表的系统,延续了 AlphaGo 等早期游戏 AI 中基于 agent 的系统思路,强调 AI 的思考、规划与推理能力。这类系统可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论。Demis 认为,这是实现 AGI 的必要路径。

工具使用成为 AI 能力扩展的新维度。Thinking模型在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案。对于数字系统而言,“工具” 与 “主模型能力” 的边界存在模糊性,比如象棋能力是整合并入主模型,还是作为工具调用,需要通过实证判断。若某种能力有助于提升其他能力,则整合入主模型,反之则考虑作为工具。

AI 正从权重模型向完整系统转变。早期模型的输入输出模式较为简单,而如今的系统能结合工具使用、规划与思考能力,实现更复杂的功能。这种转变要求产品设计具备前瞻性,需要预判一年后的技术水平,允许底层引擎定期更新(周期可能短至三到六个月),以适应技术的快速迭代。

作者:小瑜

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
伊朗导弹库存大了近一个月,中国呢?俄罗斯专家:能直接锁定战权

伊朗导弹库存大了近一个月,中国呢?俄罗斯专家:能直接锁定战权

荣亭小吏
2026-03-25 19:45:51
美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

每日经济新闻
2026-03-26 16:14:04
好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

复转这些年
2026-03-26 09:38:31
含剧毒,无解药!高温120℃煮不烂、杀不死每家都有,一定别乱吃

含剧毒,无解药!高温120℃煮不烂、杀不死每家都有,一定别乱吃

江江食研社
2026-03-25 21:55:01
卢卡库擅自玩消失,孔蒂急了,那不勒斯怒了

卢卡库擅自玩消失,孔蒂急了,那不勒斯怒了

体坛周报
2026-03-26 21:43:12
曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

观鱼听雨
2026-03-26 10:43:02
郜林:往返高速费和油费就让工资所剩无几,小克是目标榜样

郜林:往返高速费和油费就让工资所剩无几,小克是目标榜样

懂球帝
2026-03-26 22:00:56
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
光速掉粉!瑞幸被罗永浩坑惨了?!

光速掉粉!瑞幸被罗永浩坑惨了?!

广告案例精选
2026-03-26 08:59:17
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
iPhone半夜自动打电话,苹果官网发文回应

iPhone半夜自动打电话,苹果官网发文回应

界面新闻
2026-03-26 15:46:22
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
痛别张雪峰!峰学蔚来接班人确定,事业将继续

痛别张雪峰!峰学蔚来接班人确定,事业将继续

大熊欢乐坊
2026-03-26 19:17:05
倒计时开始!特朗普将迎来终极翻车时刻!

倒计时开始!特朗普将迎来终极翻车时刻!

一个坏土豆
2026-03-25 20:56:19
马斯克最新回复来了

马斯克最新回复来了

新浪财经
2026-03-26 19:29:33
2026-03-27 00:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
亲子
家居
公开课
军事航空

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

亲子要闻

看看把孩子吓得哈哈哈

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版