网易首页 > 网易号 > 正文 申请入驻

通往通用人工智能?DeepMind放大招,3D世界最强AI智能体SIMA 2

0
分享至



机器之心报道

机器之心编辑部

您的 AI 伙伴「游戏陪玩」版已上线。

今天,Google DeepMind 发布了SIMA 2,一个在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。

DeepMind 创始人哈萨比斯将其定义为通往通用人工智能的关键一步



去年,谷歌 DeepMind 推出了 SIMA (Scalable Instructable Multiworld Agent,可扩展、可指导的多世界智能体),这是一个能够跨越多种虚拟环境、遵循基本指令的通才 AI,标志着 AI 在 3D 世界中将语言转化为行动的初步探索。

SIMA 2 则代表了这一研究的重大飞跃,是创建通用和有益 AI 智能体研究的下一个里程碑。通过集成 Gemini 模型的先进能力,SIMA 正在从一个被动的、模仿人类操作的指令遵循者进化为一个交互式的游戏伴侣

SIMA 2 不仅能遵循人类指令,还能在未见过的复杂环境中(如各种开放世界游戏)进行自主规划、解释行动步骤、与用户实时对话(支持文本、语音或图像输入),并通过试错与 Gemini 反馈的闭环机制自我迭代,提升技能。

这对机器人技术和人工智能的未来具有重要意义,因为它正在构建未来物理世界智能体所需的核心「认知构建模块」。

评论区也对它的应用进行了大胆构思。



所以是 GTA 6 先发布,还是 AGI 先实现?

推理的力量

第一版 SIMA 学会了在各种商业视频游戏中执行超过 600 种语言遵循技能,如「左转」、「爬梯子」和「打开地图」。它像人一样在这些环境中操作,通过「查看」屏幕并使用虚拟键盘和鼠标进行导航,而无需访问底层的游戏机制。

尽管 SIMA 1 是优秀的「技能执行者」,但它缺乏深度规划和意图理解,仅限于被动模仿。

SIMA 2 则标志着从指令跟随到主动认知的跃进。通过嵌入 Gemini 模型作为核心引擎,SIMA 2 不仅响应指令,还能进行多步骤推理:从语言解析意图、制定计划,到执行行动。

MineDojo:SIMA 1(左)尝试执行指令时,SIMA 2(右)在从未见过的游戏中成功完成任务。

ASKA:SIMA 1(左)尝试执行「寻找篝火」指令时,SIMA 2(右)在从未见过的游戏中成功完成任务。

SIMA 2 的新架构集成了 Gemini 强大的推理能力,帮助它理解用户的高级别目标,在追求目标过程中执行复杂的推理,并在游戏中熟练执行以目标为导向的行动。它将 SIMA 1 的 语言 -> 行动 模式,升级为了 语言 -> 意图 -> 计划 -> 行动 的多步骤认知链。

DeepMind 使用混合数据训练了 SIMA 2,包括带语言标签的人类演示视频以及 Gemini 生成的标签。因此,SIMA 2 现在可以向用户描述它打算做什么,并详细说明它为实现目标正在采取的步骤。

超越简单的指令跟随:SIMA 2 不仅能回答用户问题,还能对其自身行为及所处环境进行推理。

在测试中,DeepMind 发现与该智能体互动的感觉,更像是与一个能够对当前任务进行推理的伙伴合作,而不是向它下达命令。

并且,得益于 DeepMind 与现有及新游戏合作伙伴的合作,DeepMind 已经能够在更广泛的游戏上训练和评估 SIMA 2。

这就是 Gemini 为具身 AI 带来的力量:一个世界级的推理引擎,现在能够在复杂的交互式 3D 环境中感知、理解并采取行动。

SIMA 2 通过分析环境与用户意图,能够理解抽象概念并执行逻辑指令。

泛化性能的飞跃

Gemini 的加入也带来了泛化能力和可靠性的提升。SIMA 2 现在能比其前身理解更复杂、更细微的指令,并且在执行这些指令时成功率更高,尤其是在那些它从未训练过的情景或游戏中,例如新的维京生存游戏 ASKA,或 MineDojo(一个流行开放世界沙盒游戏 Minecraft 的研究用实现)。

  • SIMA 2 能够理解并完成长期且复杂的任务

SIMA 2 能够成功执行长而复杂的指令。

  • SIMA 2 能够理解多模态提示

用户正在屏幕上绘制草图。

  • SIMA 2 能够理解不同的语言甚至表情符号

看它如何正确解读表情符号来执行任务。

此外,它迁移学习概念的能力——例如,将其在一种游戏中对「采矿」的理解应用到另一种游戏中的「收获」——是实现像人类认知中那样的广泛泛化能力的基础。事实上,由于这种能力,SIMA 2 在多种任务上的表现已显著接近人类玩家的水平。

终极测试:在全新构想的世界中游戏

为了测试 SIMA 2 泛化能力的极限,DeepMind 将其与另一个突破性研究项目 Genie 3 相结合,后者可以从单个图像或文本提示生成新的、实时的 3D 模拟世界。

当 DeepMind 挑战 SIMA 2 在这些新生成的世界中游戏时,DeepMind 发现它能够合理地确定自己的方位、理解用户指令,并朝着目标采取有意义的行动,尽管它以前从未见过这样的环境。它展现了前所未有的适应能力。

SIMA 2 在 Genie 3 生成的新世界中运行

迈向可扩展、多任务的自我提升

SIMA 2 最令人兴奋的新能力之一是其自我提升的能力。DeepMind 观察到,在整个训练过程中,SIMA 2 智能体能够执行日益复杂和新颖的任务,这是通过试错法和基于 Gemini 的反馈自举实现的。

例如,在最初从人类演示中学习后,SIMA 2 可以过渡到完全通过自我导向的游戏在新游戏中学习,在以前未见过的世界中发展其技能,而无需额外的人类生成数据。在后续训练中,SIMA 2 自身的经验数据可用于训练下一个、能力更强的智能体版本。DeepMind 甚至能够在新创建的 Genie 环境中利用 SIMA 2 的自我提升能力——这是在多样化的、生成的世界中训练通用智能体的一个重要里程碑。



这种迭代改进的良性循环为未来铺平了道路,即智能体可以以最少的人工干预进行学习和成长,成为具身 AI 领域的开放式学习者。

ASKA:左侧展示的是初代 SIMA 2 智能体失败的任务案例,右侧则显示经过多代训练后,SIMA 2 在完全无需人类反馈或游戏数据的情况下实现了自我进化。

展望未来:通往通用具身智能的旅程

SIMA 2 跨越不同游戏环境的操作能力,是通用智能的一个关键试验场,它允许智能体掌握技能、练习复杂推理,并通过自我导向的游戏持续学习。

虽然 SIMA 2 是迈向通才型、交互式、具身智能的重要一步,但它本质上是一项研究工作,其目前的局限性突显了未来工作的关键领域。

DeepMind 发现,这些智能体在处理需要大量、多步骤推理和目标验证的超长时程复杂任务时仍面临挑战。SIMA 2 对其交互的记忆也相对较短——它必须使用有限的上下文窗口来实现低延迟交互。最后,通过键盘和鼠标界面执行精确的低级别操作,以及实现对复杂 3D 场景的稳健视觉理解,仍然是整个领域在持续应对的开放性挑战。

这项研究为面向行动的 AI 提供了一条新路径的基础验证。SIMA 2 证实,一个利用多样化的多世界数据和 Gemini 强大推理能力、为实现广泛能力而训练的 AI,可以成功地将许多专用系统的能力统一到一个连贯的、通才型的智能体中。

SIMA 2 也为机器人技术的应用提供了坚实的路径。它学到的技能——从导航、工具使用到协作任务执行——都是未来物理世界 AI 助手所需的智能物理具身化的一些基本构建模块。

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
芝加哥宣布宵禁!数百青少年深夜接管市中心,当街围殴路人、砸车!市长管不了

芝加哥宣布宵禁!数百青少年深夜接管市中心,当街围殴路人、砸车!市长管不了

华人生活网
2026-03-27 01:53:15
32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

环球网资讯
2026-03-26 13:30:10
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
分析人士:美以伊战事将成为全球能源转型关键转折点

分析人士:美以伊战事将成为全球能源转型关键转折点

新京报
2026-03-26 08:13:15
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

快看张同学
2026-03-26 10:19:39
北京楼市:提醒!这种老破小,闭眼也要卖

北京楼市:提醒!这种老破小,闭眼也要卖

北京房姐
2026-03-26 15:58:02
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
002192,三连板!锂矿股爆发

002192,三连板!锂矿股爆发

数据宝
2026-03-26 10:55:57
菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

小丸说故事
2026-03-17 14:23:29
陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

老杉说历史
2026-03-21 17:38:44
朝鲜人对中国人是怎样的态度?让我告诉你真相

朝鲜人对中国人是怎样的态度?让我告诉你真相

世界圈
2026-02-24 19:20:21
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

科普100克克
2026-03-27 00:17:05
日媒曝光“强行翻墙闯入中国驻日大使馆的23岁日本自卫官老家”,面对上门采访的记者嫌疑人母亲这样说...

日媒曝光“强行翻墙闯入中国驻日大使馆的23岁日本自卫官老家”,面对上门采访的记者嫌疑人母亲这样说...

日本物语
2026-03-26 20:57:50
成人版“抖*阴” ,终于还是凉凉了 !

成人版“抖*阴” ,终于还是凉凉了 !

肇庆之星
2021-04-23 08:33:36
4.66克变2.71克?女子用两件金饰换“一口价”项链后克重“缩水”严重;金店:可补折旧费换回足克

4.66克变2.71克?女子用两件金饰换“一口价”项链后克重“缩水”严重;金店:可补折旧费换回足克

大风新闻
2026-03-26 19:31:03
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

介知
2026-03-24 23:19:18
正式退出,31岁朱雨玲发声,官宣决定,原因找到,日乒或捡漏夺冠

正式退出,31岁朱雨玲发声,官宣决定,原因找到,日乒或捡漏夺冠

运动探索
2026-03-24 15:52:20
山东客场冲复仇!斯蒂尔驰援、琼斯救赎、约翰逊续势成三大看点!

山东客场冲复仇!斯蒂尔驰援、琼斯救赎、约翰逊续势成三大看点!

老周观体育
2026-03-26 23:42:14
南京大屠杀幸存者回忆:我躲在尸堆下,任滚烫的热油浇在自己身上

南京大屠杀幸存者回忆:我躲在尸堆下,任滚烫的热油浇在自己身上

千秋文化
2026-01-05 21:11:17
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
2026-03-27 02:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
旅游
本地
健康
公开课

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版