网易首页 > 网易号 > 正文 申请入驻

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

0
分享至


新智元报道

编辑:peter东

【新智元导读】Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。

游戏领域的进步,一直是可被视为迈向通用人工智能的前奏,从棋类到多人合作的即时战略游戏,例如星际争霸。

但之前的智能体在玩游戏的时候,需要程序开发者手动编程,2024年,Deepmind推出了SIMA(Scalable Instructable Multiworld Agent),允许智能体虚拟环境中遵循自然语言编写的指令,例如你可以通过提示词。让游戏角色前往虚拟环境中的某地。

而近日新推出的SIMA 2,通过整合Gemini的多模态推理能力,让SIMA正从一个指令执行者演变为一个互动游戏伙伴。

SIMA 2不仅能够在虚拟世界中,遵循自然语言指令完成对应的操作,它现在还可以思考自己的目标,与用户对话,并随着时间的推移不断自我提升。


一个与你互动的游戏搭子

相比只能通过「查看」屏幕并使用虚拟键盘和鼠标,根据指令在固定游戏中执行对应操作的SIMA 1,SIMA 2的提升在于它不仅能够响应指令,还能够经由Gemini理解用户的目标,执行复杂推理以达成目标,并在游戏环境中熟练地进行目标导向的行为。这使得SIMA 2可以在它从未见过的游戏中完成任务,具体见下面视频对SIMA 1和SIMA 2的对比。

除了执行指令,SIMA 2还可以与用户多轮对话,一边推理自身行为及其所处环境,一边描述其意图执行的操作,并详细说明其完成目标的步骤。这使得与SIMA 2中智能体的互动,感觉更像是与一个能够理解当前任务的伙伴协作,而不是在下达命令。


图1:智能体-环境接口。智能体接收包含当前指令的提示。根据最近的帧进行条件建模,智能体输出内部推理、对话和动作,并在每一步指定要生成的模态类型。

SIMA的强大泛化能力

吹响迈向通用人工智能的号角

得益于Gemini模型本身的多模态特征,SIMA 2能够理解多模态的提示词,可以进行多语言的对话,甚至能理解表情包。


图2:SIMA 2 可以处理各种新颖且复杂的指令,包括分解指令以成功导航至特定房间。SIMA 2 还可以接受用户手绘的草图,以指定位置、路径或物体。


图3:通过使用Gemini,SIMA 2可以实现更复杂推理能力。例如上图的智能体成功利用复杂图表完成搭建营火的多步骤任务。整个过程中,智能体持续沟通其当前行为和下一步计划。

更关键的是,SIMA 2具有将所学概念迁移的能力。例如,在某一游戏中学到了如何「采矿」,而到了另一游戏中,就会用学到的技能来进行「采集」。

这样的迁移与泛化能力,是通用人工智能的基础。事实上,由于这种能力,SIMA 2在广泛的任务上的表现显著接近人类玩家。


图4:在所有训练游戏环境中中,SIMA 1、SIMA 2 和人类的任务完成成功率对比,SIMA 2相比SIMA 1平均成功率翻倍,在人类和自动评估时下均接近人类水平。


图5:SIMA 2在多个技能类别中显著优于 SIMA 1。在交互和物体管理等类别中,SIMA 2的表现几乎接近人类水平。然而,在资源收集和战斗等其他类别中,SIMA 2 仍有提升空间。

为了测试 SIMA 2 的泛化能力极限,Deepmind的研究者将其与 Genie 3 结合使用,Genie 3 可以根据单个图像或文本提示实时生成新的 3D 模拟世界。

当SIMA 2在这些新生成的世界中进行挑战时,发现它能够合理地定位自身,理解用户指令,并朝着目标采取有意义的行动,尽管它从未见过这些环境。它展现出了前所未有的适应能力。例如下面视频中,SIMA 2能够引导蝴蝶在Genie 3生成的全新环境中,导航找到红色的花朵。

可扩展的、多任务的自我提升

SIMA 2最令人兴奋的新功能之一是其自我提升的能力。

在训练过程中,SIMA 2中的智能体通过试错,以及将Gemini给的反馈作为指导,能够执行越来越复杂和新颖的任务。

例如,在最初从人类给的演示中学习之后,SIMA 2 可以通过自主游戏在新游戏中学习,无需额外示例,就能在之前未见过的世界中提升游戏技能。在后续训练中,SIMA 2 自己的经验数据可以用于训练下一个甚至更强大的智能体。

类似下围棋的Alpha-zero能够在完全不看人类棋谱的时候完成训练。研究者甚至能够利用 SIMA 2的自我提升能力Genie新创建的环境中进行训练,这将是向在多样化生成世界中训练通用智能体的重要一步。


图6:SIMA 2的自我提升循环始于Gemini为SIMA 2提供一个初始任务和对行为的奖励估计。这些信息随后被添加到自生成经验库中,该经验库用于后续版本的进一步训练。

这种迭代改进的良性循环为未来铺平了道路,届时智能体可以在极少的人类干预下学习和成长,成为具身智能中的开放性学习者。


图7:在固定任务集上,SIMA 2的性能稳步提升,逐渐接近,甚至在某些情况下超过了人类的得分。

由于可以在多种游戏环境中,执行复杂的推理和操作,并通过自主游戏持续学习,SIMA 2是迈向人工通用智能(AGI)迈进的重要一步,对机器人技术和通用AI智能体的未来发展具有重要意义。

SIMA 2的出现,说明了借助多样化的多世界数据和Gemini等大模型强大的推理能力,可以成功地将许多特有系统的功能统一到一个连贯的通用智能智能体中,这为机器人领域的应用提供了强有力的方向。

智能体在虚拟环境中所学到的技能,从导航和工具使用到协作任务执行,都会是未来物理世界中 AI 助手所需技能的基本构建模块。

不过,研究者也承认,SIMA 2中的智能体在处理超长时间跨度、复杂的任务时,仍然面临需要大量多步骤推理和目标验证等挑战。

此外,SIMA 2 对交互历史的记忆相对较短。智能体必须使用有限的上下文窗口来实现低延迟的交互。而且通过键盘和鼠标界面执行精确的低级操作,以及在复杂的3D场景中实现稳健的视觉理解,仍然是整个领域持续探索的开放性挑战。

参考资料:

https://x.com/jparkerholder/status/2000543389918339412?s=20

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
季乐:退役后竟然当交警,曾拿3次CBA总冠军,妻子是宏远啦啦队长

季乐:退役后竟然当交警,曾拿3次CBA总冠军,妻子是宏远啦啦队长

查尔菲的笔记
2026-01-20 00:58:24
《镖人》为了换那尔那茜,直接让陈丽君补拍而非换脸,投资达7亿

《镖人》为了换那尔那茜,直接让陈丽君补拍而非换脸,投资达7亿

芊手若
2026-01-18 12:56:11
40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

牛弹琴123456
2025-12-28 16:35:58
人民日报披露广州农商行原行长易雪飞腐败花样翻新

人民日报披露广州农商行原行长易雪飞腐败花样翻新

科技金融在线
2026-01-19 14:43:25
神舟二十号返回舱画面曝光:被烧得黑不溜秋,伞降时突然“冒烟”

神舟二十号返回舱画面曝光:被烧得黑不溜秋,伞降时突然“冒烟”

史料布籍
2026-01-19 20:54:36
当贾国龙呼叫六扇门儿(一):太岳四侠与金蝉脱壳

当贾国龙呼叫六扇门儿(一):太岳四侠与金蝉脱壳

摩羯商业评论
2026-01-19 09:05:22
英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

鹤羽说个事
2026-01-17 14:30:04
西贝老板的军师遭曝光:原来是大V“理记”,他让贾国龙干罗永浩

西贝老板的军师遭曝光:原来是大V“理记”,他让贾国龙干罗永浩

汉史趣闻
2026-01-17 16:25:30
闪电重挫!6.7万股民猝不及防

闪电重挫!6.7万股民猝不及防

看财经show
2026-01-19 17:14:21
NBA宣布!再见,詹姆斯!别了,杜兰特!

NBA宣布!再见,詹姆斯!别了,杜兰特!

技巧君侃球
2026-01-20 10:23:31
吴磊大瓜女主角再发文!信息量大曝两人同居细节,海量生活照流出

吴磊大瓜女主角再发文!信息量大曝两人同居细节,海量生活照流出

娱乐圈圈圆
2026-01-19 14:54:02
李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

墨印斋
2026-01-18 21:54:20
最帅升旗手张自轩结婚后在村里走亲戚,又黑又老变胖彻底沦为素人

最帅升旗手张自轩结婚后在村里走亲戚,又黑又老变胖彻底沦为素人

温读史
2026-01-18 06:21:20
国际奥委会主席,第三次找上门,想让中国办2036年奥运会。

国际奥委会主席,第三次找上门,想让中国办2036年奥运会。

南权先生
2026-01-19 15:43:28
镇压伊朗抗议的关键人物曝光,其女儿常居美国

镇压伊朗抗议的关键人物曝光,其女儿常居美国

桂系007
2026-01-19 23:58:36
正式退出!王艺迪离队原因曝光,王励勤已批准,为新老交替铺路

正式退出!王艺迪离队原因曝光,王励勤已批准,为新老交替铺路

最爱乒乓球
2026-01-19 13:49:28
郜林一家近照,42岁发福不少,老婆是超模,退役当老板很幸福

郜林一家近照,42岁发福不少,老婆是超模,退役当老板很幸福

大西体育
2026-01-19 18:25:06
里子面子都没了!邹市明“悲惨”现状,是多少中年男人的真实写照

里子面子都没了!邹市明“悲惨”现状,是多少中年男人的真实写照

东方不败然多多
2026-01-19 15:01:51
日本政坛巨震!166票封喉,公明党倒戈,高市时代终结,中方回应

日本政坛巨震!166票封喉,公明党倒戈,高市时代终结,中方回应

芳芳历史烩
2026-01-19 01:31:50
最新:乌克兰正切断红军村的俄军补给线!一天扫荡一公里

最新:乌克兰正切断红军村的俄军补给线!一天扫荡一公里

项鹏飞
2026-01-19 16:44:29
2026-01-20 10:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14366文章数 66517关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

31岁新疆舞蹈老师因罕见病去世 从确诊到离世仅2个月

头条要闻

31岁新疆舞蹈老师因罕见病去世 从确诊到离世仅2个月

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

手机
游戏
艺术
数码
公开课

手机要闻

标准版再升级 iPhone 18系列全系标配12GB内存

老外玩梗R星锅炉爆炸:GTA6不支持Steam原因在这?

艺术要闻

书法圈人士秒认墙上14字,普通人能懂吗?

数码要闻

消息称三星电子、SK海力士今年将缩减NAND闪存晶圆投片量

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版