网易首页 > 网易号 > 正文 申请入驻

诺奖得主谈「AGI试金石」:AI自创游戏并相互教学

0
分享至



日前,诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 在一档访谈节目中,围绕人工智能(AI)技术的演进与未来发展趋势进行了分享。

在访谈中,Demis 分享了从游戏 AI 到当今推理模型的演变历程,探讨了 Genie 3 等世界模型如何帮助 AI 理解现实,以及为何需要像 Kaggle Game Arena 这样的测试平台来评估通用人工智能(AGI)的新进展。

整个访谈呈现了 AI 从专项智能向全能模型迈进的路径,为理解 AGI 的未来发展方向提供了独特视角。

学术头条在不改变原文大意的情况下,对节选内容做了精编。如下:

Genie 3:让 AI 理解物理世界

Demis 表示,Genie 3 是 DeepMind 多个研究分支融合的成果,是多种想法的结合。其核心目标是构建 “世界模型” —— 即让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等。

他们一直把棋盘游戏作为一个具有挑战性的领域,来改进 AI 算法思想。在过去,人们经常把电脑游戏当作挑战,也用来创建合成数据。无论是过去和现在,研究人员都在使用大量的模拟环境,非常逼真的环境,如 3D 游戏引擎,来为系统创建更多训练数据,以帮助它们理解物理世界。

Demis 指出,“人类不仅生活在语言和数学世界中,更身处物理世界中”,AGI 若想要真正发挥作用,显然需要理解物理世界这一现实基础。无论是依赖对物理世界预判的机器人技术的突破,还是 AI 日常助手,对时空背景的把握,都离不开世界模型的支撑。

此外,它还需要理解使用者所处的时空背景,所以需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一,就是能够生成这个世界。

“有很多方法可以测试你的世界模型的有效性和深度,但一个很好的方法是让它进行逆向操作,生成关于这个世界的一些东西。”

为训练这一能力,他们利用 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律。Genie 3 最显著的特点是能生成具有一致性的世界:

当用户暂时离开其创建的虚拟场景,再次返回时,场景状态与离开时保持一致。这种特性证明它并非随机生成内容,而是对世界运作建立了稳定的底层模型,例如,“打开水龙头会有液体流出”“镜子能反射出影像” 等逻辑都能在生成过程中得到体现。

在应用层面,Genie 3 已用于内部训练。DeepMind 的游戏 agent SIMA,可以直接操控并玩现有的电脑游戏。如果将其放入 Genie 3 中,那么就能得到一个 AI 在另一个 AI 的头脑中进行游戏这种结果。SIMA 会决定采取什么行动,并发出行动指令,Genie 3 则实时生成对应的环境变化,形成 “一个 AI 生成世界、另一个 AI 在其中探索” 的闭环。这一模式能为机器人技术、AGI 系统训练创建无限的训练数据。

Demis 提到,Genie 3 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式。从科学视角看,它与视频模型共同为探索现实本质提供了新维度 ——通过 AI 对世界的模拟与生成,人类得以从不同角度思考 “现实的本质”。

Game Arena:面向AGI的动态评估基准

为应对 AI 系统 “锯齿智能” 等问题,Google DeepMind 与 Kaggle 合作推出了 Game Arena,作为评估 AGI 进展的新测试平台。让模型去玩各种不同的游戏,并测试它们的能力。

在“首届”大模型对抗赛决赛中,OpenAI 的 o3 击败了马斯克的 Grok 4,成功夺冠。谷歌的Gemini 2.5 Pro 则在半决赛中输给了Grok 4。

在 Demis 看来,这些系统要成为真正的 AGI,所缺少的东西之一就是一致性。Demis 指出,当前 AI 系统存在能力不均衡的现象:它们能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误;能根据文本提示生成模拟世界、理解视频,但仍有一些相当简单的事情,小学生都能轻松做到,而这些系统却做不到。这种不一致性是 AGI 发展需突破的关键障碍。

他认为,现有评估基准存在局限性。“可能在推理、规划、记忆方面还缺少一些能力,除了扩展之外,这些领域可能还需要一两项新的创新。”

这些系统,包括 Gemini,都是非常通用的。但目前的研究团队所使用的很多 benchmark 已经开始变得饱和。

以数学领域的 AIME 为例,DeepMind 的模型的最新结果已达到 99.2% 的正确率,意味着已经进入了一个回报非常有限的阶段,这些 benchmark 正迅速达到饱和,甚至可能因测试本身的误差影响评估效果。

因此,需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度。

Game Arena 的设计基于游戏场景,使它具备多方面的优势:

首先,游戏是非常纯粹的测试场所。你可以通过游戏得到 Elos 等级分,它们是非常客观的性能衡量标准。没有主观性,不需要让人类来进行 A/B 测试、决定评级等等,从这个意义上来说它是非常科学的。

其次,随着 AI 系统能力提升,游戏难度可自动调整。系统在比赛中相互较量,能力增强则测试自动升级,Game Arena 的全部意义就在于让最优秀的模型相互竞争。

另外,随着系统越来越完善,他们还可以逐步在 Game Arena 中引入更复杂的游戏,从象棋扩展至数千种,最终形成综合评分,评估 AI 在多领域的通用能力。它们应该能在所有游戏中都表现出色,既可以是电脑游戏,也可以是棋盘游戏。

在他看来,或许最终 AI 系统应该能发明自己的游戏,然后教给其他 AI 系统,让它们去学习,就像是学习一个从未存在过的新游戏,这样就不可能出现过度拟合训练数据之类的情况了。Demis 有很多关于这种多 agent 环境的想法,他同时也认为 Game Arena 最终应该能够支持这种环境,成为一个非常重要且影响深远的 benchmark。

在更混乱或更贴近现实世界的领域,如何确定有待优化的奖励函数或目标函数,这一直是强化学习面临的难题。在人类世界里,没有单一的目标函数,情况非常复杂。人是多目标的,会根据其他状态,比如情绪状态、物理环境以及在职业生涯中的位置等所有这些因素,不断地调整不同目标的权重。但不管怎样,Demis 认为,我们总能凭借自己的智慧度过难关,大致能弄清楚正确的“北极星”是什么。

同时,Demis 指出,通用系统也必须做到这一点,它们要学会理解人类用户想要实现的目标,然后弄清楚如何将其转化为一组有用的奖励函数来进行优化。

Demis 强调,Game Arena 的意义在于回归 DeepMind 研究本质:早期以游戏为挑战改进 AI 算法,如今游戏仍是理想测试场。未来,还需要支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实地检验通用学习能力。

作为 AGI 发展的重要基准之一,Game Arena 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验。

One more thing

除 Genie 3 和 Game Arena 外,Demis 还谈到了其他大模型相关热门话题。

Thinking 模型的演进是重要方向。以 Deep Think 为代表的系统,延续了 AlphaGo 等早期游戏 AI 中基于 agent 的系统思路,强调 AI 的思考、规划与推理能力。这类系统可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论。Demis 认为,这是实现 AGI 的必要路径。

工具使用成为 AI 能力扩展的新维度。Thinking模型在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案。对于数字系统而言,“工具” 与 “主模型能力” 的边界存在模糊性,比如象棋能力是整合并入主模型,还是作为工具调用,需要通过实证判断。若某种能力有助于提升其他能力,则整合入主模型,反之则考虑作为工具。

AI 正从权重模型向完整系统转变。早期模型的输入输出模式较为简单,而如今的系统能结合工具使用、规划与思考能力,实现更复杂的功能。这种转变要求产品设计具备前瞻性,需要预判一年后的技术水平,允许底层引擎定期更新(周期可能短至三到六个月),以适应技术的快速迭代。

作者:小瑜

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒:惠普、戴尔、宏碁和华硕考虑从中国采购内存芯片

日媒:惠普、戴尔、宏碁和华硕考虑从中国采购内存芯片

俄罗斯卫星通讯社
2026-02-06 15:14:57
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八星人
2026-01-21 15:14:26
“我的硕士白读了!”女生签约国有银行,网友:跟干服务员没区别

“我的硕士白读了!”女生签约国有银行,网友:跟干服务员没区别

妍妍教育日记
2026-02-06 19:54:04
台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

离离言几许
2026-02-05 11:00:30
冬奥会开幕式:法国故意摔倒,德国穿蝙蝠大袄,中国队服被嘲太丑

冬奥会开幕式:法国故意摔倒,德国穿蝙蝠大袄,中国队服被嘲太丑

阅微札记
2026-02-07 16:31:37
钱天一王昶领证,准婆婆曾在互联网上这样评价钱天一

钱天一王昶领证,准婆婆曾在互联网上这样评价钱天一

东方不败然多多
2026-02-07 16:06:22
乒乓亚洲杯:女单8强出炉!国乒5人日本2人,陈幸同迎战张本美和

乒乓亚洲杯:女单8强出炉!国乒5人日本2人,陈幸同迎战张本美和

全言作品
2026-02-07 14:36:40
1987年总参某领导失言中国不需要航母,萧劲光:把刘华清找来问问

1987年总参某领导失言中国不需要航母,萧劲光:把刘华清找来问问

历史甄有趣
2026-02-07 11:50:11
已突破1000万单!有人刷了近6小时才出现可下单界面,结果被AI提示下单“香飘飘奶茶”,千问:今天累垮了,求求明天再来

已突破1000万单!有人刷了近6小时才出现可下单界面,结果被AI提示下单“香飘飘奶茶”,千问:今天累垮了,求求明天再来

极目新闻
2026-02-06 18:43:40
明朝一男子将私房钱藏于木雕中,藏了600年,几任收藏家都没发现

明朝一男子将私房钱藏于木雕中,藏了600年,几任收藏家都没发现

铭记历史呀
2025-12-30 18:14:57
至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

环球网资讯
2026-02-06 14:06:36
叛逆期沙溢儿子终于肯剪头发!剪完长相大变不敢认,秒变东北宋仲基

叛逆期沙溢儿子终于肯剪头发!剪完长相大变不敢认,秒变东北宋仲基

八卦王者
2026-02-07 15:20:32
乌克兰火烈鸟导弹击中俄罗斯卡普斯京亚尔基地!开启战略打击

乌克兰火烈鸟导弹击中俄罗斯卡普斯京亚尔基地!开启战略打击

项鹏飞
2026-02-06 17:14:24
金兀术全族 70 余口被斩尽杀绝,历史的清算从不会缺席

金兀术全族 70 余口被斩尽杀绝,历史的清算从不会缺席

岸卡卡
2026-02-03 23:15:15
卷入爱泼斯坦案 法国前文化部长雅克·朗被外交部传唤

卷入爱泼斯坦案 法国前文化部长雅克·朗被外交部传唤

新京报
2026-02-06 17:52:25
31+9+7!哈登交易,逼出最强伦纳德,快船险胜国王,诞生3个现实

31+9+7!哈登交易,逼出最强伦纳德,快船险胜国王,诞生3个现实

毒舌NBA
2026-02-07 13:47:48
英国G.network宽带公司要倒闭!为了环保用“玉米”做电缆皮被老鼠啃,吓跑买家!真正的原因是什么?

英国G.network宽带公司要倒闭!为了环保用“玉米”做电缆皮被老鼠啃,吓跑买家!真正的原因是什么?

英国那些事儿
2026-02-06 23:18:16
日报社论:特朗普干预日本选举不妥

日报社论:特朗普干预日本选举不妥

参考消息
2026-02-07 19:05:05
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
微博之夜红毯明星生图状态!杨幂妆浓、杨紫脸垮,王一博像戴假发

微博之夜红毯明星生图状态!杨幂妆浓、杨紫脸垮,王一博像戴假发

萌神木木
2026-02-05 17:35:35
2026-02-07 19:36:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

媒体:特朗普清晰表明对台态度 美不会与中国全面对抗

头条要闻

媒体:特朗普清晰表明对台态度 美不会与中国全面对抗

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

时尚
艺术
教育
数码
军事航空

内娱长剧有救了!

艺术要闻

赵孟頫为86岁贵妇写的墓志,堪为最精彩之作

教育要闻

名校选拔赛题目,会者不难,难者不会!

数码要闻

华硕ROG骇客RTX 5090D v2显卡30周年纪念版上市,29999元

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版