网易首页 > 网易号 > 正文 申请入驻

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西12月5日报道,AGI竞赛愈演愈烈!就在OpenAI宣布将于未来12天直播新发布和demo前,昨夜,Google DeepMind发布大型基础世界模型Genie 2,能生成各种可控制动作、可玩的3D环境,还可以用于训练和评估具身agent。

只要给一张提示图像,Genie 2就能按照你输入的文本提示,生成对应的交互式虚拟世界。无论是人类还是AI agent,都可以使用键盘和鼠标来在由AI生成的3D游戏世界里探索和互动。

//oss.zhidx.com/uploads/2024/12/6750c0526aac0_6750c0525e714_6750c0525e6ef_genie2_1.mp4

Genie 2是一个自回归潜在扩散模型,训练于大型视频数据集。经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。该模型使用与大语言模型类似的因果掩码进行训练。

在推理时,Genie 2能以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。Google DeepMind使用CFG(无分类器指导,classifier-free guidance)来提高动作可控性。

博客文章放出大量由未蒸馏的基础模型生成的视频示例,来展示Genie 2在行动控制生成反设事实长视界记忆长视频生成多样环境3D结构物体交互复杂角色动画NPC物理烟雾光影快速原型设计方面的效果与优势。蒸馏版本支持实时交互,但运行时的视觉质量会降低些。

输入真实世界的照片后,它也能很好模拟一些物理规律,比如可模拟风中摇曳的草或河中流动的水。

一、超强空间记忆能力,模拟真实世界环境

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法。Genie 2则进一步在通用性上取得进展,可以生成种类繁多的丰富3D世界。

以下是与Genie 2互动的一些示例视频。模型会使用文生图模型Imagen 3生成的单个图像,按照提示词生成一个可交互的3D世界。人或agent进行键鼠操作,进入这个新创建的世界并与之互动。Genie 2可以生成长达1分钟的一致世界,大多数示例持续10-20秒(本文将部分视频示例转成gif动图并只截取片段,完整视频请到原博客文章查看)。

1、智能响应键盘按键操作

Genie 2可以智能地响应键盘上的按键操作,正确地识别并移动角色。比如下图中的几个示例,模型必须能弄清楚方向按键对应要移动的是机器人,而不是画面中的树、云等其他物体。


2、生成反设事实

Genie 2可以从同一起始帧生成不同的轨迹,为训练agent模拟不同事实的体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同,生成的画面内容也响应不同。

3、长视界记忆

Genie 2能够记住视野中不再存在的世界部分,并在它们再次可见时准确呈现。

4、使用新生成的内容生成长视频

Genie 2可动态生成新的合理内容,并在长达1分钟的时间内维持一致的世界。

//oss.zhidx.com/uploads/2024/12/6750b1fa5e150_6750b1fa51825_6750b1fa517f9_10long_video_2.mp4

//oss.zhidx.com/uploads/2024/12/6750b22bb8c7d_6750b22bb27d1_6750b22bb27ac_12long_video_1.mp4

5、多样化环境

Genie 2可创建不同的视角,例如第一视角、等距视图或第三视角驾驶视频。


6、3D结构

Genie 2会创建复杂的3D视觉场景。

7、模拟对象相互作用

Genie 2能模拟各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。


8、角色动画

Genie 2学习了如何为不同类型的角色制作动画来执行不同的活动。

9、NPC

Genie 2能够模拟其他agent,甚至与它们进行复杂的交互。


10、物理

Genie 2模拟水效果。


11、烟雾

Genie 2模拟烟雾效果。


12、重力

Genie 2模拟重力。


13、灯光

Genie 2模拟光点和定向照明。


14、反射

Genie 2模拟反射、喷雾减光和彩色灯光。


二、理解物理世界差异,可将概念图转化成交互式环境

Genie 2模型可快速创建各种交互体验的原型。例如用Imagen 3生成不同图像,让Genie 2生成模拟纸飞机、龙、鹰、降落伞飞行的视频。可以看到Genie 2生成的视频能够理解并模拟出它们飞行的差异。


概念艺术和绘图也可以被Genie 2转化成完全交互式环境,以便艺术家、设计师能快速制作研究环境概念的原型。


三、AI agent也能玩,为具身智能提供绝佳训练场

Genie 2可快速为AI agent创建丰富多样的环境,从而生成agent在训练期间未见过的评估任务。

例如,Google DeepMind与游戏开发商合作开发了SIMA agent。SIMA agent被设计成通过遵循自然语言指令来完成一系列3D游戏世界中的任务,因此可以在Genie 2合成的、未见过的环境执行指令。

输入下面Imagen 3生成的第三开放世界探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。


然后向SIMA agent提出打开某扇门的指令,Genie 2则能生成符合要求的画面。


在这个示例中,SIMA通过键盘和鼠标输入控制角色,而Genie 2生成游戏帧。

也可以使用SIMA来帮助评估Genie 2的功能。通过指示SIMA环顾四周、探索房屋后面等,测试Genie 2生成一致环境的能力。


再比如根据下面这张图来生成视频。


输入不同提示词“上楼”、“去有植物的地方”、“走中间门”,Genie 2会生成对应的不同视频画面。


虽然这项研究仍处于早期阶段,agent和环境生成能力都还有很大的改进空间,但Google DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。

结语:世界模型,AI领域的下一件大事

游戏是安全测试和推进AI能力的理想环境。训练更通用具身agent的传统瓶颈在于缺乏足够丰富和多样化的训练环境。

Google DeepMind正将越来越多资源投入于世界模型研究。Genie 2展示了基础世界模型在创建多样化3D环境、定制交互式游戏场景、加速agent研究等方面的潜力,可让未来的Agent在无限的新世界中接受训练和评估。

该研究方向尚处于早期阶段,Google DeepMind计划在通用性和一致性方面继续改进Genie的世界生成能力。

与SIMA一样,其研究致力于构建更通用的AI系统和agent,使其能够理解和安全地执行各种任务,从而帮助在线和现实世界中的人们。

Google DeepMind还放了一些有趣的“彩蛋”:Genie 2生成出一些奇怪视频,比如没有采取行动的情况下一个鬼魂出现在花园,在雪场的人物角色相比滑雪更爱跑酷、一个魔法球把周遭炸成灰。

来源:Google DeepMind

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夏天打死别买6种蔬菜,菜贩子自己都不吃!

夏天打死别买6种蔬菜,菜贩子自己都不吃!

华庭讲美食
2026-06-27 15:34:16
离谱!维也纳邻居互相举报装中国空调,一台空调竟卷成政治矛盾

离谱!维也纳邻居互相举报装中国空调,一台空调竟卷成政治矛盾

安安说
2026-06-28 12:07:08
我遇见重病前妻,拿60万手术费救她,没想到1个月后她儿子找上门

我遇见重病前妻,拿60万手术费救她,没想到1个月后她儿子找上门

浮生实录集
2026-05-12 11:03:24
突发踩踏!CPO三巨头集体暴跌,超600亿资金出逃

突发踩踏!CPO三巨头集体暴跌,超600亿资金出逃

财闻
2026-06-29 13:16:42
泽连斯基:拆掉列宁雕像,旧址应改建马泽帕纪念碑

泽连斯基:拆掉列宁雕像,旧址应改建马泽帕纪念碑

超人强动物俱乐部
2026-06-29 14:09:51
大宝贝和黄教主及大佬的瓜!

大宝贝和黄教主及大佬的瓜!

八卦疯叔
2026-06-29 09:50:03
桃子被发现!医生研究发现:吃得越多,高血脂患者血管或越干净?

桃子被发现!医生研究发现:吃得越多,高血脂患者血管或越干净?

岐黄传人孙大夫
2026-06-29 12:43:32
刘青山被枪毙40年后,他亲弟弟公开发言,对毛主席的决定作出评价

刘青山被枪毙40年后,他亲弟弟公开发言,对毛主席的决定作出评价

冰语历史
2026-06-09 15:48:50
我爸97看起来才60,长寿秘诀不是多走路多吃保健品,而是这四件事

我爸97看起来才60,长寿秘诀不是多走路多吃保健品,而是这四件事

蝉吟槐蕊
2026-06-28 05:16:03
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
2026高考成绩公布,再次证明:教书的是老师,但育人的一定是父母

2026高考成绩公布,再次证明:教书的是老师,但育人的一定是父母

户外阿毽
2026-06-26 10:27:32
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

胡一舸南游y
2026-06-28 22:43:38
票房只有100多万,著名相声演员新片惨败,多位明星助力也没用

票房只有100多万,著名相声演员新片惨败,多位明星助力也没用

影视高原说
2026-06-27 10:08:54
果然,祖坟不能一直冒青烟偶尔也得歇歇!

果然,祖坟不能一直冒青烟偶尔也得歇歇!

夜深爱杂谈
2026-06-27 22:04:23
下险棋啊!高铁遇到脱鞋女子,网友称盯脚看3分钟,再夸赞加微信

下险棋啊!高铁遇到脱鞋女子,网友称盯脚看3分钟,再夸赞加微信

火山詩话
2026-06-28 08:02:32
世界杯32强球队约战国足!佛得角足协:感谢中国,期待迎战国足!

世界杯32强球队约战国足!佛得角足协:感谢中国,期待迎战国足!

海浪星体育
2026-06-28 17:02:41
原来他就是迟蓬的丈夫,是我们熟悉的资深大导演,公公是电影明星

原来他就是迟蓬的丈夫,是我们熟悉的资深大导演,公公是电影明星

一盅情怀
2026-06-28 13:18:54
严子怡再现一枪定胜负追平刘翔一纪录 她的18岁!才过38天就夺三冠

严子怡再现一枪定胜负追平刘翔一纪录 她的18岁!才过38天就夺三冠

劲爆体坛
2026-06-29 06:43:06
越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

王新喜
2026-06-27 06:48:38
有人预测:不出意外,下半年开始,米面油、将迎来行业新一轮洗牌

有人预测:不出意外,下半年开始,米面油、将迎来行业新一轮洗牌

趣味萌宠的日常
2026-06-29 15:36:22
2026-06-29 17:35:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12143文章数 117113关注度
往期回顾 全部

科技要闻

拟投3.52万亿人民币 韩国公布重大芯片计划

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

健康
艺术
时尚
手机
军事航空

狂吃“糯叽叽”小心肠梗阻!

艺术要闻

《顽固者的城——胡吉宏的艺术实践》学术交流展于贵州启幕

伊姐周日热推:电视剧《千香》;电视剧《非份之罪》......

手机要闻

三星Galaxy手机国际漫游专利侵权案在美败诉,被判赔偿300万美元

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版