网易首页 > 网易号 > 正文 申请入驻

谷歌「世界模型」大升级!一张图生成任意虚拟世界,无限训练 AI 智能体

0
分享至

在人工智能(AI)领域中,如何为智能体创建高质量的训练和评估环境,一直是推动具身智能研究的重要课题。然而,目前大多数环境生成方法在多样性、交互性和可控性方面仍存在局限。

今日凌晨,Google Deepmind 推出了大型基础世界模型 Genie 2,其能够生成各种可控制动作、可玩的 3D 环境,可用于训练和评估具身智能体。基于单个提示图像,人类或 AI 智能体可以使用键盘和鼠标输入与之互动。

游戏在 AI 研究领域中扮演着重要角色。游戏的吸引力、独特的挑战组合和可量化的进展使其成为安全测试和推进 AI 能力的理想环境。

据悉,Genie 2 的推出将使未来的智能体能够在无限的新世界中进行训练和评估。这项研究也为开发交互原型体验的新型创意工作流程铺平了道路。

基础世界模型的新兴能力

到目前为止,世界模型在很大程度上局限于建模狭窄的领域。Genie 1 提出了一种生成各种 2D 世界的方法。而今日凌晨推出的 Genie 2 则进一步在通用性上实现巨大飞跃,可以生成种类繁多的丰富 3D 世界。

Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。它是在大规模视频数据集上进行训练的,并且与其他生成模型一样展示了各种大规模的新兴能力,例如对象交互、复杂的角色动画、物理以及建模并预测其他智能体行为的能力。

任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入这个新创建的世界并与之互动(或让 AI 智能体在其中接受训练或评估)。在每个步骤中,人类或智能体提供键盘和鼠标操作,然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达 1 分钟的一致世界,大多数示例持续 10-20 秒。

  1. 智能响应按键操作

Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。例如,在下面的示例中模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。

  1. 生成反事实(counterfactuals)

Genie 2 可以从同一起始帧生成不同的轨迹,这意味着可以为训练智能体模拟反事实体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同。

  1. 长视野记忆

Genie 2 能够记住视野中不再存在的世界部分,并在它们再次可见时准确呈现。

  1. 生成长视频

Genie 2 可以动态生成新的合理内容,并在长达一分钟的时间内维持一致的世界。

  1. 多样化环境

Genie 2 可以创建不同的视角,例如第一人称视角、等距视图或第三人称驾驶视频。

  1. 3D结构

Genie 2 会创建复杂的 3D 视觉场景。

  1. 模拟对象相互作用

Genie 2 能模拟各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。

  1. 角色动画

Genie 2 学习了如何为不同类型的角色制作动画来执行不同的活动。

  1. NPC

Genie 2 能够模拟其他智能体,甚至与它们进行复杂的交互。

10. 使用真实世界图像进行播放

Genie 2 还可以通过现实世界的图像进行提示,可以模拟风中摇曳的草或河中流动的水。

此外, Genie 2 还可以模拟水、烟雾、重力、灯光和反射等效果。

Genie 2 支持快速原型设计

Genie 2 可轻松快速地制作各种交互体验的原型,使研究人员能够快速尝试新的环境来训练和测试 AI 具身智能体。

例如用 Imagen 3 生成不同图像提示 Genie 2,使其生成模拟纸飞机、龙、鹰、降落伞飞行之间的差异,并测试 Genie 对不同对象的动画效果如何。

得益于 Genie 2 的分布式泛化能力,概念艺术和绘图可以转化为完全交互式的环境。这使得艺术家和设计师能够快速制作原型,从而推动环境设计的创意过程,进一步加速研究。

在世界模型中行动的 AI 智能体

借助 Genie 2 快速创建丰富多样的 AI 智能体训练环境,研究人员可以生成训练阶段未曾见过的评估任务。

以下展示了一个与游戏开发者合作开发的 SIMA 智能体示例,其在 Genie 2 基于单张图片提示生成的全新环境中,按指令完成任务。

SIMA 智能体旨在通过自然语言指令,在各种 3D 游戏世界中完成任务。在这一示例中,研究人员使用 Genie 2 生生成了包含两个门(一个蓝色,一个红色)的 3D 环境,并向 SIMA 智能体提供了指令,要求其打开每扇门。任务执行过程中,SIMA 通过键盘和鼠标控制虚拟角色,而 Genie 2 负责生成游戏画面。

也可以使用 SIMA 来帮助评估 Genie 2 的性能。例如通过指示 SIMA 环顾四周并探索房屋后面来测试 Genie 2 生成一致环境的能力。

虽然这项研究仍处于早期阶段,智能体和环境生成能力都还有很大的改进空间,但 Google DeepMind 相信 Genie 2 是解决安全训练具体智能体的结构性问题的途径,同时实现迈向 AGI 所需的广度和通用性

扩散世界模型

Genie 2 是一种自回归潜变量扩散模型,基于大规模视频数据集进行训练 。视频经过自动编码器处理后,其潜在帧会被传递到一个大型 transformer 动态模型中进行处理,该模型采用与大语言模型相似的因果掩码进行训练。

推理阶段,Genie 2 能够以自回归的方式进行采样,通过逐帧处理单个动作和过去的潜在帧来生成结果 。同时,模型使用无分类器引导(Classifier-free guidance)的方法以提升动作的可控性。

据介绍,博客中的示例均由未经蒸馏的基础模型生成,以展示模型的潜力。经过蒸馏的版本则可以实现实时运行,但会以一定的输出质量降低为代价。

整理:阮文韵

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
张雪峰去世当天吃午饭的画面流出!一碗饭六碗菜,都是外卖且重油

张雪峰去世当天吃午饭的画面流出!一碗饭六碗菜,都是外卖且重油

火山詩话
2026-03-25 06:03:26
高铁站台能否全面禁烟?12306回应

高铁站台能否全面禁烟?12306回应

中国新闻周刊
2026-03-24 20:43:03
这是刘思齐最真实的样貌,这可不是演员扮演的,货真价实的照片

这是刘思齐最真实的样貌,这可不是演员扮演的,货真价实的照片

TVB的四小花
2026-03-25 05:07:40
卡塔尔正式宣布暂停跟中国合同,就是说卡塔尔不给中国提供天然气

卡塔尔正式宣布暂停跟中国合同,就是说卡塔尔不给中国提供天然气

福建平子
2026-03-24 16:53:02
欧洲是如何悄然介入美伊战争的

欧洲是如何悄然介入美伊战争的

澎湃新闻
2026-03-24 20:54:04
吃以色列的饭,砸以色列的锅,若以色列“灭国”,有他们一半功劳

吃以色列的饭,砸以色列的锅,若以色列“灭国”,有他们一半功劳

易玄
2026-03-24 00:11:41
曝张雪峰已经二婚,11岁女儿继承遗产变复杂,处境令人心疼!

曝张雪峰已经二婚,11岁女儿继承遗产变复杂,处境令人心疼!

古希腊掌管松饼的神
2026-03-24 23:29:16
人民锐评:国际油价飙升,中国为何稳得住?

人民锐评:国际油价飙升,中国为何稳得住?

澎湃新闻
2026-03-24 14:57:02
张雪峰,贩卖焦虑的时代标本熄灭了

张雪峰,贩卖焦虑的时代标本熄灭了

智识漂流
2026-03-24 21:52:20
超过80%的美国AI公司使用中国产模型,咨询机构警告:已威胁美国AI领域领先地位

超过80%的美国AI公司使用中国产模型,咨询机构警告:已威胁美国AI领域领先地位

观察者网
2026-03-24 10:20:10
张雪峰去世更多细节披露,血管狭窄90%,特殊治疗知情同意书曝光

张雪峰去世更多细节披露,血管狭窄90%,特殊治疗知情同意书曝光

派大星纪录片
2026-03-25 08:20:44
41岁张雪峰被证实在苏州去世:医院抢救病例流出,最后露面照曝光

41岁张雪峰被证实在苏州去世:医院抢救病例流出,最后露面照曝光

博士观察
2026-03-24 22:24:24
包头一男子喂流浪猫被杀,年仅37岁,10岁儿子每晚哭泣

包头一男子喂流浪猫被杀,年仅37岁,10岁儿子每晚哭泣

九方鱼论
2026-03-24 13:15:04
日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

清欢百味
2026-03-25 06:26:23
伊朗称摧毁两枚AGM-158巡航导弹

伊朗称摧毁两枚AGM-158巡航导弹

国际在线
2026-03-25 06:38:24
点个外卖连相册都被端了?美团“删照片”事件全网炸锅

点个外卖连相册都被端了?美团“删照片”事件全网炸锅

财狗商业评论
2026-03-24 11:36:16
悲催!男方86年,深圳全款车房、无负债,学历中专被女方直接拒绝

悲催!男方86年,深圳全款车房、无负债,学历中专被女方直接拒绝

火山詩话
2026-03-25 06:33:07
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
2026-03-25 09:43:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

以色列对特朗普表态很"意外" 担心美国作出"重大让步"

头条要闻

以色列对特朗普表态很"意外" 担心美国作出"重大让步"

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

张雪峰的多面人生:从寒门导师到教育商人

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

时尚
本地
游戏
房产
数码

当年轻女性,闯入电竞圈

本地新闻

春日吃花第一站——云南

《刺客信条:影》周年数据炸裂!信仰之跃5800万回

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

数码要闻

苹果为AirPods Pro 3等耳机发布新固件 提升整体性能

无障碍浏览 进入关怀版