网易首页 > 网易号 > 正文 申请入驻

诺奖得主谈「AGI试金石」:AI自创游戏并相互教学

0
分享至



日前,诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 在一档访谈节目中,围绕人工智能(AI)技术的演进与未来发展趋势进行了分享。

在访谈中,Demis 分享了从游戏 AI 到当今推理模型的演变历程,探讨了 Genie 3 等世界模型如何帮助 AI 理解现实,以及为何需要像 Kaggle Game Arena 这样的测试平台来评估通用人工智能(AGI)的新进展。

整个访谈呈现了 AI 从专项智能向全能模型迈进的路径,为理解 AGI 的未来发展方向提供了独特视角。

学术头条在不改变原文大意的情况下,对节选内容做了精编。如下:

Genie 3:让 AI 理解物理世界

Demis 表示,Genie 3 是 DeepMind 多个研究分支融合的成果,是多种想法的结合。其核心目标是构建 “世界模型” —— 即让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等。

他们一直把棋盘游戏作为一个具有挑战性的领域,来改进 AI 算法思想。在过去,人们经常把电脑游戏当作挑战,也用来创建合成数据。无论是过去和现在,研究人员都在使用大量的模拟环境,非常逼真的环境,如 3D 游戏引擎,来为系统创建更多训练数据,以帮助它们理解物理世界。

Demis 指出,“人类不仅生活在语言和数学世界中,更身处物理世界中”,AGI 若想要真正发挥作用,显然需要理解物理世界这一现实基础。无论是依赖对物理世界预判的机器人技术的突破,还是 AI 日常助手,对时空背景的把握,都离不开世界模型的支撑。

此外,它还需要理解使用者所处的时空背景,所以需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一,就是能够生成这个世界。

“有很多方法可以测试你的世界模型的有效性和深度,但一个很好的方法是让它进行逆向操作,生成关于这个世界的一些东西。”

为训练这一能力,他们利用 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律。Genie 3 最显著的特点是能生成具有一致性的世界:

当用户暂时离开其创建的虚拟场景,再次返回时,场景状态与离开时保持一致。这种特性证明它并非随机生成内容,而是对世界运作建立了稳定的底层模型,例如,“打开水龙头会有液体流出”“镜子能反射出影像” 等逻辑都能在生成过程中得到体现。

在应用层面,Genie 3 已用于内部训练。DeepMind 的游戏 agent SIMA,可以直接操控并玩现有的电脑游戏。如果将其放入 Genie 3 中,那么就能得到一个 AI 在另一个 AI 的头脑中进行游戏这种结果。SIMA 会决定采取什么行动,并发出行动指令,Genie 3 则实时生成对应的环境变化,形成 “一个 AI 生成世界、另一个 AI 在其中探索” 的闭环。这一模式能为机器人技术、AGI 系统训练创建无限的训练数据。

Demis 提到,Genie 3 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式。从科学视角看,它与视频模型共同为探索现实本质提供了新维度 ——通过 AI 对世界的模拟与生成,人类得以从不同角度思考 “现实的本质”。

Game Arena:面向AGI的动态评估基准

为应对 AI 系统 “锯齿智能” 等问题,Google DeepMind 与 Kaggle 合作推出了 Game Arena,作为评估 AGI 进展的新测试平台。让模型去玩各种不同的游戏,并测试它们的能力。

在“首届”大模型对抗赛决赛中,OpenAI 的 o3 击败了马斯克的 Grok 4,成功夺冠。谷歌的Gemini 2.5 Pro 则在半决赛中输给了Grok 4。

在 Demis 看来,这些系统要成为真正的 AGI,所缺少的东西之一就是一致性。Demis 指出,当前 AI 系统存在能力不均衡的现象:它们能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误;能根据文本提示生成模拟世界、理解视频,但仍有一些相当简单的事情,小学生都能轻松做到,而这些系统却做不到。这种不一致性是 AGI 发展需突破的关键障碍。

他认为,现有评估基准存在局限性。“可能在推理、规划、记忆方面还缺少一些能力,除了扩展之外,这些领域可能还需要一两项新的创新。”

这些系统,包括 Gemini,都是非常通用的。但目前的研究团队所使用的很多 benchmark 已经开始变得饱和。

以数学领域的 AIME 为例,DeepMind 的模型的最新结果已达到 99.2% 的正确率,意味着已经进入了一个回报非常有限的阶段,这些 benchmark 正迅速达到饱和,甚至可能因测试本身的误差影响评估效果。

因此,需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度。

Game Arena 的设计基于游戏场景,使它具备多方面的优势:

首先,游戏是非常纯粹的测试场所。你可以通过游戏得到 Elos 等级分,它们是非常客观的性能衡量标准。没有主观性,不需要让人类来进行 A/B 测试、决定评级等等,从这个意义上来说它是非常科学的。

其次,随着 AI 系统能力提升,游戏难度可自动调整。系统在比赛中相互较量,能力增强则测试自动升级,Game Arena 的全部意义就在于让最优秀的模型相互竞争。

另外,随着系统越来越完善,他们还可以逐步在 Game Arena 中引入更复杂的游戏,从象棋扩展至数千种,最终形成综合评分,评估 AI 在多领域的通用能力。它们应该能在所有游戏中都表现出色,既可以是电脑游戏,也可以是棋盘游戏。

在他看来,或许最终 AI 系统应该能发明自己的游戏,然后教给其他 AI 系统,让它们去学习,就像是学习一个从未存在过的新游戏,这样就不可能出现过度拟合训练数据之类的情况了。Demis 有很多关于这种多 agent 环境的想法,他同时也认为 Game Arena 最终应该能够支持这种环境,成为一个非常重要且影响深远的 benchmark。

在更混乱或更贴近现实世界的领域,如何确定有待优化的奖励函数或目标函数,这一直是强化学习面临的难题。在人类世界里,没有单一的目标函数,情况非常复杂。人是多目标的,会根据其他状态,比如情绪状态、物理环境以及在职业生涯中的位置等所有这些因素,不断地调整不同目标的权重。但不管怎样,Demis 认为,我们总能凭借自己的智慧度过难关,大致能弄清楚正确的“北极星”是什么。

同时,Demis 指出,通用系统也必须做到这一点,它们要学会理解人类用户想要实现的目标,然后弄清楚如何将其转化为一组有用的奖励函数来进行优化。

Demis 强调,Game Arena 的意义在于回归 DeepMind 研究本质:早期以游戏为挑战改进 AI 算法,如今游戏仍是理想测试场。未来,还需要支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实地检验通用学习能力。

作为 AGI 发展的重要基准之一,Game Arena 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验。

One more thing

除 Genie 3 和 Game Arena 外,Demis 还谈到了其他大模型相关热门话题。

Thinking 模型的演进是重要方向。以 Deep Think 为代表的系统,延续了 AlphaGo 等早期游戏 AI 中基于 agent 的系统思路,强调 AI 的思考、规划与推理能力。这类系统可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论。Demis 认为,这是实现 AGI 的必要路径。

工具使用成为 AI 能力扩展的新维度。Thinking模型在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案。对于数字系统而言,“工具” 与 “主模型能力” 的边界存在模糊性,比如象棋能力是整合并入主模型,还是作为工具调用,需要通过实证判断。若某种能力有助于提升其他能力,则整合入主模型,反之则考虑作为工具。

AI 正从权重模型向完整系统转变。早期模型的输入输出模式较为简单,而如今的系统能结合工具使用、规划与思考能力,实现更复杂的功能。这种转变要求产品设计具备前瞻性,需要预判一年后的技术水平,允许底层引擎定期更新(周期可能短至三到六个月),以适应技术的快速迭代。

作者:小瑜

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天才探花秀,3年无所作为,今伤愈复出,能撑起开拓者的未来吗?

天才探花秀,3年无所作为,今伤愈复出,能撑起开拓者的未来吗?

弄月公子
2026-02-08 07:55:47
炸裂!山东夫妇到美国帮女儿带孩子,5年后连带女儿遭洋女婿杀害

炸裂!山东夫妇到美国帮女儿带孩子,5年后连带女儿遭洋女婿杀害

谈史论天地
2026-02-07 08:40:06
乌军战俘获释后也会去世!俄军战俘:回俄罗斯还不如留在乌克兰

乌军战俘获释后也会去世!俄军战俘:回俄罗斯还不如留在乌克兰

鹰眼Defence
2026-02-07 17:44:57
亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

颜小白的篮球梦
2026-02-07 22:16:10
勇士官宣转正斯宾塞!另一个名额瞄准球哥:将与掘金等队展开竞争

勇士官宣转正斯宾塞!另一个名额瞄准球哥:将与掘金等队展开竞争

罗说NBA
2026-02-08 06:57:37
50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

汉史趣闻
2026-02-07 17:03:56
半年巨亏超1500亿元,全球第四大汽车巨头突然爆雷,股价暴跌超20%!电动化遭遇重大打击,CEO:不再追求激进的转型目标!将加大在美国投资

半年巨亏超1500亿元,全球第四大汽车巨头突然爆雷,股价暴跌超20%!电动化遭遇重大打击,CEO:不再追求激进的转型目标!将加大在美国投资

每日经济新闻
2026-02-07 16:37:07
揭秘亚洲最穷国:当地女性惊人开放,游客秒变土豪,无不想去定居

揭秘亚洲最穷国:当地女性惊人开放,游客秒变土豪,无不想去定居

明天后天大后天
2026-02-07 11:10:14
捐钱造航母的男孩,登上军舰

捐钱造航母的男孩,登上军舰

都市快报橙柿互动
2026-02-08 00:18:12
博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

可达鸭面面观
2026-02-07 22:55:27
大奖赛决赛出炉:赵心童vs张安达!争170万奖金,超越丁俊晖纪录

大奖赛决赛出炉:赵心童vs张安达!争170万奖金,超越丁俊晖纪录

球场没跑道
2026-02-07 22:59:18
白银的事闹大了,搞不好会沦为下一个“原油宝”

白银的事闹大了,搞不好会沦为下一个“原油宝”

鸣金网
2026-02-07 18:12:43
皇马更衣室彻底炸了!库尔图瓦公开怒怼贝林厄姆:再不改,就滚!

皇马更衣室彻底炸了!库尔图瓦公开怒怼贝林厄姆:再不改,就滚!

奶盖熊本熊
2026-02-08 03:31:26
48小时万亿蒸发,高盛用Claude「杀死」人类会计!亲手埋葬软件帝国

48小时万亿蒸发,高盛用Claude「杀死」人类会计!亲手埋葬软件帝国

新智元
2026-02-07 19:34:41
从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

青眼财经
2026-02-07 22:22:53
下套不成反被将一军,共和党拒绝公开听证会,克林顿夫妇不忍了

下套不成反被将一军,共和党拒绝公开听证会,克林顿夫妇不忍了

东极妙严
2026-02-07 13:47:16
原来她就是王传福的妻子,怪不得做啥都能来财,娶一个贤妻旺三代

原来她就是王传福的妻子,怪不得做啥都能来财,娶一个贤妻旺三代

孤酒老巷QA
2026-02-03 19:35:25
巴拿马惹恼中国,商品被一网打尽,总统彻底砸锅

巴拿马惹恼中国,商品被一网打尽,总统彻底砸锅

现代小青青慕慕
2026-02-07 19:14:04
冯巩南京商演现场曝光,一张嘴就是公式相声味,票价堪比郭德纲

冯巩南京商演现场曝光,一张嘴就是公式相声味,票价堪比郭德纲

离离言几许
2026-02-07 19:14:31
特朗普想搞“五国集团”:由美国、中国、俄罗斯、印度和日本组成,取代七国集团

特朗普想搞“五国集团”:由美国、中国、俄罗斯、印度和日本组成,取代七国集团

扬子晚报
2026-02-07 15:20:27
2026-02-08 08:07:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

教育
时尚
数码
旅游
手机

教育要闻

高考高分低就?三大隐藏陷阱曝光!

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

旅游要闻

抓住东南亚游客的心 山东靠什么

手机要闻

vivo X300 Ultra顶配版通过认证,支持北斗卫星短信

无障碍浏览 进入关怀版