网易首页 > 网易号 > 正文 申请入驻

谷歌「世界模型」大升级!一张图生成任意虚拟世界,无限训练 AI 智能体

0
分享至

在人工智能(AI)领域中,如何为智能体创建高质量的训练和评估环境,一直是推动具身智能研究的重要课题。然而,目前大多数环境生成方法在多样性、交互性和可控性方面仍存在局限。

今日凌晨,Google Deepmind 推出了大型基础世界模型 Genie 2,其能够生成各种可控制动作、可玩的 3D 环境,可用于训练和评估具身智能体。基于单个提示图像,人类或 AI 智能体可以使用键盘和鼠标输入与之互动。

游戏在 AI 研究领域中扮演着重要角色。游戏的吸引力、独特的挑战组合和可量化的进展使其成为安全测试和推进 AI 能力的理想环境。

据悉,Genie 2 的推出将使未来的智能体能够在无限的新世界中进行训练和评估。这项研究也为开发交互原型体验的新型创意工作流程铺平了道路。

基础世界模型的新兴能力

到目前为止,世界模型在很大程度上局限于建模狭窄的领域。Genie 1 提出了一种生成各种 2D 世界的方法。而今日凌晨推出的 Genie 2 则进一步在通用性上实现巨大飞跃,可以生成种类繁多的丰富 3D 世界。

Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。它是在大规模视频数据集上进行训练的,并且与其他生成模型一样展示了各种大规模的新兴能力,例如对象交互、复杂的角色动画、物理以及建模并预测其他智能体行为的能力。

任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入这个新创建的世界并与之互动(或让 AI 智能体在其中接受训练或评估)。在每个步骤中,人类或智能体提供键盘和鼠标操作,然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达 1 分钟的一致世界,大多数示例持续 10-20 秒。

  1. 智能响应按键操作

Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。例如,在下面的示例中模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。

  1. 生成反事实(counterfactuals)

Genie 2 可以从同一起始帧生成不同的轨迹,这意味着可以为训练智能体模拟反事实体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同。

  1. 长视野记忆

Genie 2 能够记住视野中不再存在的世界部分,并在它们再次可见时准确呈现。

  1. 生成长视频

Genie 2 可以动态生成新的合理内容,并在长达一分钟的时间内维持一致的世界。

  1. 多样化环境

Genie 2 可以创建不同的视角,例如第一人称视角、等距视图或第三人称驾驶视频。

  1. 3D结构

Genie 2 会创建复杂的 3D 视觉场景。

  1. 模拟对象相互作用

Genie 2 能模拟各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。

  1. 角色动画

Genie 2 学习了如何为不同类型的角色制作动画来执行不同的活动。

  1. NPC

Genie 2 能够模拟其他智能体,甚至与它们进行复杂的交互。

10. 使用真实世界图像进行播放

Genie 2 还可以通过现实世界的图像进行提示,可以模拟风中摇曳的草或河中流动的水。

此外, Genie 2 还可以模拟水、烟雾、重力、灯光和反射等效果。

Genie 2 支持快速原型设计

Genie 2 可轻松快速地制作各种交互体验的原型,使研究人员能够快速尝试新的环境来训练和测试 AI 具身智能体。

例如用 Imagen 3 生成不同图像提示 Genie 2,使其生成模拟纸飞机、龙、鹰、降落伞飞行之间的差异,并测试 Genie 对不同对象的动画效果如何。

得益于 Genie 2 的分布式泛化能力,概念艺术和绘图可以转化为完全交互式的环境。这使得艺术家和设计师能够快速制作原型,从而推动环境设计的创意过程,进一步加速研究。

在世界模型中行动的 AI 智能体

借助 Genie 2 快速创建丰富多样的 AI 智能体训练环境,研究人员可以生成训练阶段未曾见过的评估任务。

以下展示了一个与游戏开发者合作开发的 SIMA 智能体示例,其在 Genie 2 基于单张图片提示生成的全新环境中,按指令完成任务。

SIMA 智能体旨在通过自然语言指令,在各种 3D 游戏世界中完成任务。在这一示例中,研究人员使用 Genie 2 生生成了包含两个门(一个蓝色,一个红色)的 3D 环境,并向 SIMA 智能体提供了指令,要求其打开每扇门。任务执行过程中,SIMA 通过键盘和鼠标控制虚拟角色,而 Genie 2 负责生成游戏画面。

也可以使用 SIMA 来帮助评估 Genie 2 的性能。例如通过指示 SIMA 环顾四周并探索房屋后面来测试 Genie 2 生成一致环境的能力。

虽然这项研究仍处于早期阶段,智能体和环境生成能力都还有很大的改进空间,但 Google DeepMind 相信 Genie 2 是解决安全训练具体智能体的结构性问题的途径,同时实现迈向 AGI 所需的广度和通用性

扩散世界模型

Genie 2 是一种自回归潜变量扩散模型,基于大规模视频数据集进行训练 。视频经过自动编码器处理后,其潜在帧会被传递到一个大型 transformer 动态模型中进行处理,该模型采用与大语言模型相似的因果掩码进行训练。

推理阶段,Genie 2 能够以自回归的方式进行采样,通过逐帧处理单个动作和过去的潜在帧来生成结果 。同时,模型使用无分类器引导(Classifier-free guidance)的方法以提升动作的可控性。

据介绍,博客中的示例均由未经蒸馏的基础模型生成,以展示模型的潜力。经过蒸馏的版本则可以实现实时运行,但会以一定的输出质量降低为代价。

整理:阮文韵

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西安事变没那么简单,实际伤亡很大,蒋家多位子侄外甥为保蒋死亡

西安事变没那么简单,实际伤亡很大,蒋家多位子侄外甥为保蒋死亡

大千世界观
2025-12-30 20:48:18
刺杀普京?乌克兰闯下弥天大祸!特朗普惊出冷汗:还好当时没松口

刺杀普京?乌克兰闯下弥天大祸!特朗普惊出冷汗:还好当时没松口

南宫一二
2025-12-30 15:16:30
庞家后人香港媒体强硬发声:不公正、不理解、不接受,硬刚到底!

庞家后人香港媒体强硬发声:不公正、不理解、不接受,硬刚到底!

李健政观察
2025-12-29 23:44:27
"回来的全不是人",罗布泊老兵临终遗言,揭开骇人听闻内幕

"回来的全不是人",罗布泊老兵临终遗言,揭开骇人听闻内幕

天字号野史
2024-10-09 14:00:03
一枚42900!退市的1分硬币,谁能找到?

一枚42900!退市的1分硬币,谁能找到?

小陈收藏社
2025-12-30 14:45:13
女子跑3家银行网点没办成1张卡,多家银行工作人员回应:2020年“断卡行动”后办卡开始变严

女子跑3家银行网点没办成1张卡,多家银行工作人员回应:2020年“断卡行动”后办卡开始变严

观威海
2025-12-30 09:18:37
开始收网?东部战区围台10小时,5大落弹区划下,美军已求避战

开始收网?东部战区围台10小时,5大落弹区划下,美军已求避战

时时有聊
2025-12-29 11:58:10
外交部:中方对卡莉达·齐亚女士不幸辞世表示深切哀悼

外交部:中方对卡莉达·齐亚女士不幸辞世表示深切哀悼

环球网资讯
2025-12-30 15:40:07
40岁王丽坤沦落到拍短片,前夫被捕2年后,她人中变长,不耐看了

40岁王丽坤沦落到拍短片,前夫被捕2年后,她人中变长,不耐看了

小老头奇闻
2025-12-30 18:35:36
一场战争掀开了一个政治乞丐

一场战争掀开了一个政治乞丐

维美丽心甜
2025-11-12 07:20:03
湿疹不会平白无故复发,提醒:湿疹复发的人,多半与这6事有关

湿疹不会平白无故复发,提醒:湿疹复发的人,多半与这6事有关

摇感军事
2025-12-30 21:24:06
从赛季24球到仅5球!马竞锋霸彻底迷失,如今降价也要走

从赛季24球到仅5球!马竞锋霸彻底迷失,如今降价也要走

午夜搭车a
2025-12-30 23:26:21
太突然!武汉知名大酒店将被拍卖?

太突然!武汉知名大酒店将被拍卖?

越乔
2025-12-30 23:01:52
英超2025年积分榜:阿森纳83分居首,曼城第二利物浦第四

英超2025年积分榜:阿森纳83分居首,曼城第二利物浦第四

懂球帝
2025-12-31 07:15:21
“被打还手即互殴”将成为历史!新《治安管理处罚法》2026年1月1日起施行

“被打还手即互殴”将成为历史!新《治安管理处罚法》2026年1月1日起施行

观威海
2025-12-30 10:02:05
蒋万安的一张全家福,他有三个儿子,妻子看着就是挺和善的一个人

蒋万安的一张全家福,他有三个儿子,妻子看着就是挺和善的一个人

大江
2025-12-30 14:45:26
英超之夜:阿森纳4-1维拉 曼联1-1助狼队终结12连败 切尔西7轮1胜

英超之夜:阿森纳4-1维拉 曼联1-1助狼队终结12连败 切尔西7轮1胜

狍子歪解体坛
2025-12-31 06:52:09
上海地铁一男子被打10个耳光不还手!“被打还手即互殴”成历史

上海地铁一男子被打10个耳光不还手!“被打还手即互殴”成历史

环球网资讯
2025-12-30 11:06:39
日本半年杀熊近万头,逼疯焚烧厂,堆积如山的熊肉为何日本人不吃

日本半年杀熊近万头,逼疯焚烧厂,堆积如山的熊肉为何日本人不吃

百科密码
2025-12-29 15:27:34
正义之锤砸向台独!特朗普沉默数小时后通告全球,缓缓说出三个字

正义之锤砸向台独!特朗普沉默数小时后通告全球,缓缓说出三个字

科普100克克
2025-12-30 18:39:13
2025-12-31 07:43:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1427文章数 5081关注度
往期回顾 全部

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

头条要闻

3个中国小伙创立的AI公司 被扎克伯格140亿元买下

头条要闻

3个中国小伙创立的AI公司 被扎克伯格140亿元买下

体育要闻

联盟第一人倒下了!掘金还有底牌吗?

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

手机
旅游
家居
时尚
公开课

手机要闻

联想moto X70 Air Pro AI手机预热,即将发布

旅游要闻

外媒:大批国际游客涌向中国过新年

家居要闻

当归之宅 三胎圆满居所

在这里,我们拍到了雪原上的一抹瑞红

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版