网易首页 > 网易号 > 正文 申请入驻

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

0
分享至

智东西8月6日消息,昨夜,谷歌DeepMind宣布推出通用世界模型Genie 3首个可实时交互世界模型来了。

基于文本提示,Genie 3可以允许用户以每秒24帧的速度,以720p的分辨率生成长达数分钟的交互式3D环境,Genie 2仅能生成10到20秒。

去年年底,谷歌DeepMind发布能生成各种可控制动作、可玩3D环境的大型基础世界模型Genie 2,此次发布的Genie 3,是其第一个允许实时交互的世界模型,在一致性和真实感方面相较前代有提升。如下面的示例中,Genie 3生成内容的机器人本体、周围环境质感更佳:


博客文章中,谷歌DeepMind放出了数十个Genie 3的生成案例,展示其在模拟世界物理特性、模拟自然世界、生成动画和小说建模、超越地理时间限制生成内容的能力。此外,研究人员还将其应用到具身Agent研究,如指示Agent向Genie 3发送导航操作,实现在花园里靠近软管的任务:

谷歌DeepMind Genie 3与Genie 2、由神经模型驱动的游戏引擎GameNGen、视频生成模型Veo对比,最突出的特点是其生成时长翻倍增长:

此次,谷歌DeepMind宣布以有限研究预览版的形式发布Genie 3,为一小部分学者和创作者提供早期使用机会。在博客的致谢部分,还出现了被谷歌挖来的OpenAI视频生成工具Sora的联合负责人之一蒂姆·布鲁克斯(Tim Brooks)。

网友在谷歌DeepMind的X评论区疯狂开启夸夸夸模式,有网友将其的重要性与ChatGPT、Sora发布对标:

还有网友认为这是3A游戏大作的未来,还能在VR、电视互动节目中有很大应用场景:

一位Reddit上的开发者认为Genie 3的发布,意味着理论上而言“只要有足够的计算能力和实时数据……就可以让整个世界变得可玩”。

本文动图均只截取了Genie 3生成内容的部分片段,完整案例演示请查看原博客:

博客链接:https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/?utm_source=x&utm_medium=social&utm_campaign=genie3

一、模拟真实世界物理特性、动植物逼真,动画小说建模画面自然

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法,Genie 2进一步在通用性上取得进展,可以生成种类繁多的丰富3D世界,现在Genie 3不仅在生成3D世界的真实性、一致性上取得进展,还引入了实时互动能力

以下是Genie 3生成的实时互动内容:

1、模拟世界的物理特性:复杂环境没有失真

下面的案例中,3D世界在表现水蔓延到马路上、海平面、灯光映照在水面的光影变化等都没有失真。


2、模拟自然世界:动植物表现逼真

Genie 3可以创建从动物到植物等各种复杂且充满活力的生态系统,如下面演示的庭院、湖泊、海底世界等。


3、动画和小说建模:动画人物活灵活现

Genie 3还能创建动画场景以及动画人物,动画人物的色彩、形象都符合整体环境。

4、突破时空界限:探索未知地点和过去时刻

Genie 3创建的内容可以超越地理和时间界限,探索未知的地方或者过去的时代,如下面的翼装飞行、山地骑车等场景。

二、支持一个世界切换天气、引入新角色,演示具身Agent应用潜力

除了导航输入之外,Genie 3还支持基于文本的交互形式,谷歌DeepMind的博客将其称为可提示的世界事件。也就是说,其可以改变已经生成的世界,如改变当前世界的天气条件、引入新物体等

这种能力还扩展了模型对反事实或假设场景的学习,Agent可以从经验中学习这些场景来处理意外情况。

如下面的演示中,在给定的“草原”场景中,案例演示可以看到棕熊、绿色拖拉机、骑马的人分别进入画面。


此外,为了测试Genie 3创建的世界与未来Agent训练的兼容性,研究人员为用于3D虚拟场景的通用Agent SIMA生成了世界。

在每个世界中,其都指示Agent完成不同任务,并通过向Genie 3发送导航操作来实现这些目标。与其他环境一样,Genie 3并不知道代理的目标,而是根据代理的操作来模拟未来。

下面的“面包店”场景中,演示出分别给出了走进搅拌机、前往冷却架、走到玻璃柜前的任务:

在给定的“市场”环境中,案例分别演示了走进花摊、去面包师那里等任务:

在具身Agent的研究领域,研究人员就可以选择一个世界设定,然后选择希望Agent实现的目标并观察它如何实现目标。

基于Genie 3在保持一致性方面的优势,现在其可以执行更长的操作序列,从而实现更复杂的目标。

三、环境几分钟内可保持一致,Genie 3仍有五大局限性

Genie 3通过记忆已生成的内容并进行长期推理,自学世界中的物体如何移动、下落和互动。该模型是自回归的,这意味着它一次只生成一帧,其必须回顾之前生成的内容,才能决定下一步要做什么。这是该架构的关键部分。

为了实现Genie 3生成内容高度可控且能实时交互,在每一帧的自回归生成过程中,模型必须考虑先前生成的轨迹。例如,如果用户在一分钟后再次访问某个位置,模型必须参考一分钟前的相关信息。

同时为了实现实时交互性,这种计算必须每秒进行多次,以响应新的用户输入。

想要使AI生成的世界具有沉浸感,生成内容必须在很长一段时间内保持物理一致性。然而,自回归生成环境通常比生成完整视频更难,因为误差往往会随着时间的推移而累积。

Genie 3的环境在几分钟内仍能保持基本一致,视觉记忆可以追溯到一分钟前。如下图所示的“建筑物左侧的树木”,在互动过程中始终保持一致:

其博客提到,Genie 3的一致性是一项新兴能力。NeRF和高斯分布等方法在实现一致的可导航3D环境同时,需要依赖于提供明确的3D表示,相比之下,Genie 3生成的世界是根据世界描述和用户操作逐帧创建的,因此生成内容更为丰富、真实

Genie 3通过记忆已生成的内容并进行长期推理,自学世界中的物体如何移动、下落和互动。该模型是自回归的,这意味着它一次只生成一帧,其必须回顾之前生成的内容,才能决定下一步要做什么。这是该架构的关键部分。

谷歌DeepMind的博客中也提到了Genie 3目前的局限性:

行动空间有限:尽管可触发的世界事件允许进行广泛的环境干预,但它们不一定由Agent本身执行,Agent可直接执行的操作范围目前受到限制;

与其他Agent的交互和模拟:准确建模共享环境中多个独立Agent之间的复杂交互仍然是一个持续的研究挑战;

准确表示真实世界的位置:Genie 3目前无法以完美的地理精度模拟真实世界的位置;

文本渲染:通常只有在输入世界描述中提供时才会生成清晰易读的文本;

交互时长有限:该模型目前支持几分钟的持续交互,无法支持长达数小时的交互。

在此基础上,谷歌DeepMind宣布Genie 3以有限研究预览版的形式发布,使其能够从其他学者处收集重要的反馈和提供跨学科视角。

结语:谷歌DeepMind深耕模拟环境研究,或加速AI Agent训练

此前十多年来,谷歌DeepMind一直致力于模拟环境领域的开创性研究,从训练Agent掌握实时战略游戏, 到开发用于开放式学习和机器人技术的模拟环境,再到开发世界模型。

去年,其推出Genie 1和Genie 2两大基础世界模型,可以为Agent生成新的环境,并发布视频生成模型Veo 2和Veo 3。

可以看出,这些AI系统能够利用自身对世界的理解来模拟世界的各个方面,使Agent能够预测环境将如何演变以及其行为将如何影响环境。谷歌DeepMind的博客提到,世界模型是迈向通用人工智能(AGI)的关键基石,因为它们使得在丰富多样的模拟环境中训练AI Agent成为可能。

从目前的应用场景来看,Genie 3或许可以为机器人和自主系统等提供训练空间并评估其表现。未来,这项技术或许能在我们迈向AGI的过程中发挥关键作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

颜小白的篮球梦
2026-03-26 09:40:23
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

潮鹿逐梦
2026-03-24 17:58:35
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
萨巴伦卡等人会师迈阿密站女单四强,半决赛世界前二将直接对话

萨巴伦卡等人会师迈阿密站女单四强,半决赛世界前二将直接对话

生活新鲜市
2026-03-26 16:30:08
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
“只要决心够大,诺贝尔奖不在话下!”

“只要决心够大,诺贝尔奖不在话下!”

槽逻辑
2026-03-24 18:46:27
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

头狼追球
2026-03-26 13:48:03
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

艺鉴在线
2026-03-26 12:54:44
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
杨鸣指出广东男篮两大问题,杜锋迷恋小阵容,用人问题明显!

杨鸣指出广东男篮两大问题,杜锋迷恋小阵容,用人问题明显!

中国篮坛快讯
2026-03-26 17:45:38
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
亚洲杯抽签仪式将延期进行,国足明战库拉索,重点演练定位球

亚洲杯抽签仪式将延期进行,国足明战库拉索,重点演练定位球

五星体育
2026-03-26 17:41:30
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

180视角
2026-03-25 17:34:12
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
2026-03-26 18:16:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11434文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
时尚
手机
房产
军事航空

又一经典最终幻想游戏将停运!开服至今已六年有余

皮衣+裙,高级到炸

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版