网易首页 > 网易号 > 正文 申请入驻

DeepMind打造多游戏通用智能体SIMA 2,让AI在虚拟世界中自我训练

0
分享至

《山羊模拟器 3》(Goat Simulator 3)这款以混乱、荒诞著称的游戏,其物理引擎的不可预测性曾让无数玩家啼笑皆非。如今,谷歌成功让这款游戏成为了他们最新 AI Agent 泛化能力的试验场。

11 月 13 日,DeepMind 正式发布 SIMA 2(Scalable Instructable Multiworld Agent,可扩展的可指令多世界智能体),这个集成了 Gemini 大语言模型的新一代智能体,不仅能在《无人深空》的浩瀚星际中导航,也能在《山羊模拟器 3》的混乱世界里完成任务。这种跨越虚拟环境的能力,被 DeepMind 称为“迈向通用人工智能的重要一步”。

2024 年 3 月,DeepMind 首次发布了 SIMA 的初代版本。当时的 SIMA 1 已经算是一个突破——它能够跨越《无人深空》《山羊模拟器 3》等八款商业游戏执行基本指令,仅通过观察屏幕像素和使用虚拟键鼠操作,无需访问游戏的底层代码。但其 31% 的复杂任务完成率暴露了根本性的瓶颈:这个系统更像一个执行器而非思考者,面对“找到营火”这样简单的目标时,它只能机械地尝试各种操作,缺乏真正的理解和规划能力。

SIMA 2 的核心改变是整合了 Gemini 2.5 flash-lite 模型作为推理引擎。Gemini 的语言理解和推理能力与 SIMA 的 embodied skills(具身技能)深度融合,使得 Agent 能够理解高层目标、制定多步计划,并在执行过程中与用户对话解释自己的思路。在新的基准测试中,SIMA 2 在训练过的游戏环境中达到了 65% 的成功率,几乎是前代的两倍,与人类玩家 75% 的基准线已经相当接近。

这种性能提升的背后是架构层面的重新设计。SIMA 2 的训练数据不再完全依赖人类游戏演示录像,而是混合了人类标注和 Gemini 生成的任务描述。当智能体观察到游戏画面中的某个场景时,Gemini 模型会同时生成对该场景的语义理解和可能的行动方案。这种训练方式的一个直接结果是,SIMA 2 现在能够用自然语言描述它的意图和推理过程。在《无人深空》的演示中,当被要求“前往看起来像成熟番茄的房子”时,智能体会明确说明:“成熟的番茄是红色的,所以我应该去红色的房子”——这种显式推理正是 Gemini 带来的质变。

多模态交互能力也有提升。SIMA 2 可以理解文字、语音、手绘草图,甚至 emoji。当用户发送斧头和树木的 emoji 时,智能体能理解这意味着“砍树”。这种能力来自 Gemini 的多模态架构,但关键是 DeepMind 找到了将抽象符号与游戏动作连接的方法,系统理解斧头是工具、树木是可交互对象、两者组合意味着特定行动序列。

SIMA 2 最重要的创新之一是其自我改进机制。与 SIMA 1 完全依赖人类游戏数据不同,SIMA 2 在获得初始的人类演示基线后,能够转向自主学习。当团队将智能体放入新环境时,系统会调用另一个 Gemini 模型来生成新任务,并使用单独的奖励模型对智能体的尝试进行评分。

通过这些自生成的经验作为训练数据,智能体能从自己的错误中学习,逐步提升性能,本质上是在 AI 反馈而非人类反馈的引导下,像人类一样通过试错来教会自己新行为。这种自我改进循环在与 Genie 3(DeepMind 的世界生成模型)结合时能发挥更大的作用:在 Genie 3 实时生成的全新 3D 环境中,SIMA 2 展现出了前所未有的适应能力,能够在从未见过的世界中理解用户指令并采取有意义的行动。

在从未训练过的 MineDojo(Minecraft 的研究实现版本)和 ASKA 游戏中,SIMA 2 的成功率相较第一代分别提升了 13% 和 12%。虽然仍然只有不到 15% 的水平,但考虑到智能体此前从未见过这些游戏的任何画面或机制,这个表现已经相对可观。


(来源:Google)

更重要的是,它展示了概念迁移的能力——在《无人深空》中学到的“采集资源”概念可以迁移到 MineDojo 中的“挖矿”,在《英灵神殿》中学到的“使用工具”可以应用到 ASKA 的“装备武器”。这种跨环境的知识迁移,对于提升 AI 的真正智能来说至关重要。

DeepMind 在游戏 AI 上有长期积累,从 AlphaGo 到 AlphaStar,每一步都在推进 AI 的边界。不过,让单一系统掌握多种游戏一直是个难题。纽约大学的 AI 研究员 Julian Togelius 提到,之前的尝试效果不太理想,因为仅通过观看屏幕来实时控制多个游戏本身就很困难。他特别指出 DeepMind 之前的 GATO 系统,当时宣传力度很大,但实际上未能在足够多的虚拟环境中转移技能。

现在的问题是,SIMA 2 能否避免重蹈覆辙?目前来看,它仍有几个比较明显的限制。它在需要多步骤和长时间的复杂任务上仍有困难。为了提高响应速度,团队削减了长期记忆,它只记得最近的交互。在使用鼠标键盘方面,它还是远不如人类。阿尔伯塔大学的 Matthew Guzdial 向《麻省理工科技评论》表示:大多数游戏的键鼠控制很相似,学会一个就学会了全部,“如果给它一个输入方式怪异的游戏,我认为它表现不会好。”他还质疑这些技能能否迁移到机器人上——游戏视觉是为人类设计的、易于解析,真实世界的摄像头输入要复杂得多。

这触及了具身智能(Embodied AI)领域的核心难题:模拟到现实的鸿沟(sim-to-real gap)。虚拟环境提供了安全、可控、低成本的训练场所,但它与现实世界有本质差异。Togelius 对此持更开放的看法。他认为真实世界既更难也更容易。更难是因为物理交互的复杂性——你不能按个键就开门。但同时,真实世界的机器人清楚知道自己身体的能力边界,而游戏里每个虚拟世界的规则都不同。

DeepMind 的研究工程师 Frederic Besse 在新闻发布会上给出了他们的思路:将机器人系统分为两层:上层是 SIMA 2 这样的“认知层”,负责理解任务、推理和规划;下层是专门的运动控制系统,负责关节运动、力控制等底层执行。这种分层架构在工业界已有先例,如 NVIDIA 的 Isaac 机器人平台就采用类似设计。理论上,SIMA 2 学到的“找到红色物体”“使用工具”“导航到目标”等高层技能是跨越虚拟和现实的,而关键是如何将这些抽象能力映射到物理动作上。对此,我们尚保持谨慎的乐观。

但无论如何,SIMA 2 所展示的研究方向还是非常具有价值的:用多样化的虚拟环境训练、用大语言模型增强推理、用自我改进减少对人类数据的依赖。这个方向的可行性和上限值得期待,但也还需要更多研究来验证。它是具身 AI 领域的一个重要节点,但不是终点。虚拟世界与真实世界之间的鸿沟,在可预见的未来仍然存在。

目前,SIMA 2 仅作为“有限研究预览”发布,只向小范围的学术机构和游戏开发者开放访问。



参考资料:

1.https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

2.https://www.technologyreview.com/2025/11/13/1127921/google-deepmind-is-using-gemini-to-train-agents-inside-goat-simulator-3/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

吭哧有力
2025-11-14 10:22:35
马库斯在中国寒心了!和平展遭破坏并强制收费,成都官方评论沦陷

马库斯在中国寒心了!和平展遭破坏并强制收费,成都官方评论沦陷

以茶带书
2025-11-14 00:12:29
校运动会上高中女生被弓箭射中面部,校方:已妥善救治,情况稳定

校运动会上高中女生被弓箭射中面部,校方:已妥善救治,情况稳定

大风新闻
2025-11-14 19:22:32
11月14日俄乌:公正的回应

11月14日俄乌:公正的回应

山河路口
2025-11-14 18:51:04
武汉小象超市的“原切牛肉”是合成肉?厂家:是不同部位牛肉挤压后切片丨封面深镜

武汉小象超市的“原切牛肉”是合成肉?厂家:是不同部位牛肉挤压后切片丨封面深镜

封面新闻
2025-11-14 18:57:05
祝贺!袁励岑/王艺迪大战7局4-3拿下辽宁队友,摘得全运混双铜牌

祝贺!袁励岑/王艺迪大战7局4-3拿下辽宁队友,摘得全运混双铜牌

乒谈
2025-11-14 22:15:01
放弃库里,安德玛断臂求生

放弃库里,安德玛断臂求生

体育产业生态圈
2025-11-14 19:16:44
网红“峰哥亡命天涯”多平台账号被禁止关注

网红“峰哥亡命天涯”多平台账号被禁止关注

极目新闻
2025-11-14 18:38:00
倒查风暴,席卷全国!20年旧账全部翻出,贪腐利益网连根拔起!

倒查风暴,席卷全国!20年旧账全部翻出,贪腐利益网连根拔起!

柏年说政经
2025-11-14 18:01:46
7-0狂胜!15万人口小岛酝酿奇迹:再拿1分=进世界杯+创纪录

7-0狂胜!15万人口小岛酝酿奇迹:再拿1分=进世界杯+创纪录

叶青足球世界
2025-11-14 15:04:36
张家界荒野求生最后一名女选手“冷美人”退赛,还剩14名男选手,赛事方:她呕吐晕倒被送医

张家界荒野求生最后一名女选手“冷美人”退赛,还剩14名男选手,赛事方:她呕吐晕倒被送医

极目新闻
2025-11-14 14:44:15
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

白宸侃片
2025-11-14 13:44:20
日本通告全球,中国不认栽,就驱逐外交官,话音刚落空军王炸来了

日本通告全球,中国不认栽,就驱逐外交官,话音刚落空军王炸来了

兰妮搞笑分享
2025-11-14 15:45:42
闫妮与任素汐现身沈阳烤肉店,闫妮老得不能看,任素汐室内抽烟!

闫妮与任素汐现身沈阳烤肉店,闫妮老得不能看,任素汐室内抽烟!

小娱乐悠悠
2025-11-13 10:04:58
外交部:任何势力胆敢阻挠中国的统一大业,都是痴心妄想、螳臂当车

外交部:任何势力胆敢阻挠中国的统一大业,都是痴心妄想、螳臂当车

澎湃新闻
2025-11-14 18:02:26
超700台光刻机!荷兰ASML公司可能要全部回购?外媒:事情闹大了

超700台光刻机!荷兰ASML公司可能要全部回购?外媒:事情闹大了

大卫聊科技
2025-11-13 13:44:04
再也回不去了?潘展乐状态仍在下滑,100米夺冠成绩仅列世界第73

再也回不去了?潘展乐状态仍在下滑,100米夺冠成绩仅列世界第73

杨华评论
2025-11-14 20:53:35
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
虽败犹荣!河南女排0-3江苏,朱婷双拳难敌四手,吴梦洁强攻发威

虽败犹荣!河南女排0-3江苏,朱婷双拳难敌四手,吴梦洁强攻发威

骑马寺的少年
2025-11-14 20:49:43
2025-11-14 23:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15860文章数 514298关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

贵州盘州花亿元建"世界最大人造月亮"项目 已停运5年

头条要闻

贵州盘州花亿元建"世界最大人造月亮"项目 已停运5年

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

时尚
健康
手机
房产
军事航空

“羽绒服+半身裙”,混搭风太好看了!保暖又气质!

金振口服液助力科学应对呼吸道疾病

手机要闻

转售平台已溢价500元!中国市场销售火爆:1899元版iPhone Pocket手机包已售罄

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

军事要闻

国防部:日方若胆敢铤而走险必将碰得头破血流

无障碍浏览 进入关怀版