网易首页 > 网易号 > 正文 申请入驻

DeepMind 世界模型再升级:一句话「创造」多样化交互世界!

0
分享至

继去年发布 、 之后,Google DeepMind 昨日深夜推出了他们的新一代世界模型 Genie 3。据介绍,这一通用世界模型能够生成前所未有的多样化交互式环境。

基于文本提示,Genie 3 可以生成动态世界,在 24 帧每秒的实时速度下进行探索,并在 720p 分辨率下保持几分钟的一致性。

官方介绍片如下:

Genie 3 能力如何?

以下是 Genie 3 的实时交互录屏。

模拟物理世界属性

体验水流、光照等自然现象,以及复杂的环境交互。

Prompt: Jetski during the festival of lights.

模拟自然世界

生成生机勃勃的生态系统,从动物行为到复杂的植物生命。

Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep ocean canyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.

动画与虚构作品的建模

激发想象力,打造奇幻场景并塑造生动逼真的动画角色。

Prompt: A vibrant 3D style, an adorable, fluffy creature bounding across a vibrant rainbow bridge in a fantastical landscape. The creature is small and compact, with fur that mimics the warm hues of a sunrise - oranges, yellows, and pinks blending seamlessly together. Its most striking feature is a pair of large, perked ears, shaped like those of a German Shepherd, adding a touch of playful contrast to its otherwise rounded form. As it runs on four short legs across the rainbow, its fur appears to ripple and flow, adding to its sense of dynamism and energy. The rainbow bridge arches gracefully through a whimsical landscape, perhaps filled with floating islands, glowing flora, and swirling clouds. The lighting is bright and cheerful, casting a warm glow on the creature and its surroundings. The overall impression is one of joy, wonder, and boundless energy, capturing the creature's playful spirit and the magical nature of the world it inhabits. This image evokes a sense of childlike whimsy and invites the viewer to imagine the adventures that await this charming creature in its fantastical realm.

探索地点与历史背景

突破地理与时间的界限,探索各地与往昔时代。

Prompt: A real world mountainous environment in the Alps. The landscape features steep, rocky cliffs and narrow gorges filled with loose scree and debris. The rock is predominantly grey and white, with patches of green vegetation clinging to the cliff faces. The top of the gorge opens up to a vista of dense evergreen forests and meadows. The overall theme is one of rugged, natural beauty and extreme terrain.

突破即时处理能力的边界

要在 Genie 3 中实现高度可控性和实时交互性,需要取得重大的技术突破。在每个帧的自回归生成过程中,模型必须考虑随时间增长的先前生成的轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互性,这一计算必须以每秒多次的频率响应新用户输入。

环境一致性

为了使 AI 生成的世界具有沉浸感,它们必须保持长程物理一致性。然而,自回归式生成环境通常比生成整个视频更具技术挑战性,因为不准确性会随时间累积。尽管存在挑战,Genie 3 环境在几分钟内仍保持高度一致,视觉记忆可追溯至一分钟前。

Prompt: This is a fantastical, whimsical forest environment. The lighting is bright and cheerful, suggesting a sunny day with dappled light filtering through a dense canopy of lush, oversized leaves. The air is clear and still. The ground is a soft, verdant carpet of moss and unusually large, brightly coloured mushrooms in shades of red and blue, their caps dotted with white. Winding dirt paths, well-trodden and narrow, weave between towering, ancient trees with smooth, grey bark. Interspersed throughout the forest are charming, mushroom-shaped houses, with intricate wooden doors and tiny, circular windows, each one unique in its design and colour palette, ranging from vibrant reds to gentle blues and greens. Various small, friendly forest creatures, such as colourful butterflies and tiny singing birds, flit amongst the foliage, adding to the lively atmosphere. There is an abundance of peculiar, oversized flowers blooming in an array of pastel and bright hues, releasing a gentle glow.

研究团队表示,Genie 3 的一致性是一种涌现能力。其他方法,如 NeRF 和高斯溅射,也能够生成一致的可导航 3D 环境,但依赖于显式 3D 表示的提供。相比之下,Genie 3 生成的世界更具动态性,且更丰富,因为它们是基于世界描述和用户操作,逐帧生成的。

可提示的世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互方式,研究团队称之为可提示的世界事件。

可提示的世界事件使生成世界能够发生变化,例如改变天气条件或引入新物体和角色,从而提升导航控制带来的体验。

这一能力还扩大了反事实(即“如果……会怎样”)场景的范围,这些场景可被通过经验学习的 agent 用于处理意外情况。

如下,选择一个世界设置。然后,选择一个事件,Genie 3 就可以创建一个交互世界。



推动具身 agent 研究

为了测试 Genie 3 生成的世界与未来 agent 训练的兼容性,研究团队为 SIMA agent 的最新版本生成了世界,该 agent 是用于 3D 虚拟环境的通用 agent。在每个世界中,他们会指示 agent 追求一组不同的目标,它通过向 Genie 3 发送导航动作来实现这些目标。与其他环境一样,Genie 3 并不知道 agent 的目标,而是根据 agent 的动作模拟未来。

由于 Genie 3 能够保持一致性,现在可以执行更长的操作序列,从而实现更复杂的目标。研究团队预计,这项技术将在向通用人工智能(AGI)迈进的过程中发挥关键作用,而 agent 在现实世界中也将扮演更重要的角色。

局限性

尽管 Genie 3 在世界模型能力上突破了现有界限,但研究团队称 Genie 3 已然存在诸多局限性,如下:

  • 有限的动作空间。尽管可提示的世界事件允许对环境进行广泛干预,但这些操作并不一定由 agent 自身执行。agent 直接执行的动作范围目前仍受限。

  • 与其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互,仍是一项持续的研究挑战。

  • 真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。

  • 文本渲染。清晰可读的文本通常仅在输入世界描述中提供时才会生成。

  • 交互持续时间受限。该模型目前仅能支持几分钟的连续交互,而非数小时的持续交互。

下一步是什么?

研究团队认为,Genie 3 是世界模型发展的重要里程碑,它将开始对人工智能研究和生成式媒体的多个领域产生影响。为此,他们正在探索如何在未来向更多测试者开放 Genie 3。

Genie 3 可能为教育和培训创造新机遇,帮助学生学习和专家积累经验。它不仅能为训练机器人和自主系统等 agent 提供广阔空间,还能评估 agent 的性能并探索其弱点。

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

整理:小瑜

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
41岁张雪峰去世,死因曝光,他至少有3次活命机会,全被耽误了!

41岁张雪峰去世,死因曝光,他至少有3次活命机会,全被耽误了!

小舟谈历史
2026-03-25 18:56:59
巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

游民星空
2026-03-25 19:48:32
表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

背包旅行
2026-03-26 15:03:43
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
东方财富、同花顺、指南针、大智慧......互联网券商信息服务商业绩大扫描!有何亮点?

东方财富、同花顺、指南针、大智慧......互联网券商信息服务商业绩大扫描!有何亮点?

券商中国
2026-03-26 12:24:18
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
黄仁勋:芯片公司的时代已经结束了

黄仁勋:芯片公司的时代已经结束了

芯榜
2026-03-26 01:34:50
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
75岁刘晓庆发文:这么想我死啊

75岁刘晓庆发文:这么想我死啊

都市快报橙柿互动
2026-03-25 15:21:36
医生给你暗示过什么话?网友:小兔崽子不安分

医生给你暗示过什么话?网友:小兔崽子不安分

夜深爱杂谈
2026-03-19 19:32:51
别再被蔬菜的外表骗了,内行人:这6种蔬菜,暗藏“科技与狠活”

别再被蔬菜的外表骗了,内行人:这6种蔬菜,暗藏“科技与狠活”

洪洋美食日记
2026-03-26 15:10:01
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
疯狂!狂轰59+10+5,场均31.8分+历史得分王,竟然打不了NBA

疯狂!狂轰59+10+5,场均31.8分+历史得分王,竟然打不了NBA

球童无忌
2026-03-26 11:10:26
消息人士:若美国打通霍尔木兹海峡,伊朗或在曼德海峡开辟新战线

消息人士:若美国打通霍尔木兹海峡,伊朗或在曼德海峡开辟新战线

极目新闻
2026-03-26 10:13:04
国企的中层小领导也熬不住了

国企的中层小领导也熬不住了

微微热评
2026-01-30 11:32:23
千万粉丝网红嘲讽张雪峰离世,引众怒!这波操作,三观碎一地

千万粉丝网红嘲讽张雪峰离世,引众怒!这波操作,三观碎一地

LOGO研究所
2026-03-26 15:54:28
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
都说你是CBA高铁,如今打成联盟第一,手握顶薪,妻子很漂亮

都说你是CBA高铁,如今打成联盟第一,手握顶薪,妻子很漂亮

大西体育
2026-03-26 14:23:06
2026-03-26 16:32:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
健康
教育
亲子
军事航空

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

转头就晕的耳石症,能开车上班吗?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版