网易首页 > 网易号 > 正文 申请入驻

世界模型超真实地模拟真实世界:谷歌Genie 3昨晚抢了OpenAI风头

0
分享至

机器之心报道

编辑:冷猫、Panda

昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。

Genie 3是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界,可能性无穷无尽。」

据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性

相比于前一代 Genie 2 世界模型、使用扩散模型的游戏生成引擎 GameNGen 以及视频生成模型 Veo,最新的 Genie 3 在多个特性上都具有明显优势。

比如,相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时还支持使用提示词生成世界事件,并能维持数分钟的一致性(DeepMind 将其称为「交互视界」)。更重要的是,Genie 3 还能做到实时响应。

而相比于专用于游戏生成的 GameNGen,Genie 3 更加通用,同时在分辨率等其它指标上都远远胜之。

最后与 Veo 3 对比,虽然 Genie 3 在分辨率这一点上还有不足,但在其它方面却优势明显。

Genie 3 一宣布就激起夸声一片。

Genie 3 团队的 Matt McGill 分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。

一时间,风头甚至盖过了近段时间来备受期待的 OpenAI 开源模型。

下面,我们来看看 Genie 3 生成的一些具体能力和案例。

Genie 3 的能力

作为最新前沿的世界模型,Genie 3 具备构建一个完整世界的全部能力,并且能够在较长时间范围内保证生成的世界连贯且可交互,其功能包括:

  • 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。
  • 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。
  • 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。
  • 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。

Prompt: Walking on a pavement in Florida next to a two-lane road from one side and the seaon the other, during an approaching hurricane, with strong wind and waves splashing over theroad. There is a railing on the left of the agent, separating them from the sea. The road goesalong the coast, with a short bridge visible in front of the agent. Waves are splashing over therailing and onto the road one after another. Palm trees are bending in the wind. There is heavyrain, and the agent is wearing a rain coat. Real world, first-person.

提示词:在佛罗里达州的人行道上行走,一边是双向车道,另一边是海洋,正值即将来临的飓风,强风和波浪拍打着路面。agent 的左侧有一道栏杆,将其与海洋隔开。道路沿着海岸线延伸,agent 波浪接连不断地拍打着栏杆,涌上路面。棕树在风中弯曲。大雨倾盆,agent 前方可见一座短桥。agent 穿着雨衣。真实世界,第一人称。

Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep oceacanyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.

提示词真实世界的追踪镜头,在深邃昏暗的海洋中穿梭,穿过深海的峡谷,密集的大群水母在游动,生物发光照明。

Prompt: Being a lizard, origami style

提示词:你是一只蜥蜴,折纸风格

Prompt: Venice by Vaporetto. The canals of Venice are recreated with painstaking detall. Thewater has realistic reflections and wakes, The buildings show crumbling plaster and centuriesof weathering. The scene is populated with other gondolas, water taxis, and barges.

提示词威尼斯的汽船。威尼斯的运河以精心细致的细节重新创造。水面有逼真的反射和波纹。建筑物显示出剥落的灰泥和数百年的风化。场景中还有其他贡多拉船、水上出租车和驳船。

实时响应和长时间一致性

这一次 Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。

为了实现 Genie 3 在可控性和实时交互性方面的高水平表现,谷歌在技术上取得了一系列的重大突破。

在每一帧的自回归生成过程中,模型需要持续考虑随着时间增长的轨迹信息。例如,当用户在一分钟后再次回到某个地点时,模型必须能够回溯并引用一分钟前生成的相关信息。

而要实现真正的实时交互,这种计算必须每秒多次完成,以便及时响应不断到来的用户输入。

为了让 AI 生成的世界更具有沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多,因为误差往往会随时间逐步累积。

尽管面临这一挑战,Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。

建筑物左侧的树木在整个交互过程中保持一致,即使它们进出视野也是如此。

虽作为世界模型,Genie 3 本质上仍是一个二维的图像 / 视频生成模型,与直接的三维场景生成具有显著的区别。

简单来说,Genie 3 的一致性是一种「涌现能力(emergent capability)」,能够生成更加丰富,动态,变化的世界,因为世界是基于世界描述和用户动作逐帧生成的。

而其他基于三维模型的方法,如 NeRF 和 Gaussian Splatting,同样可以生成具有一致性的可导航三维环境,但它们依赖于三维表示作为输入,显著限制了场景的丰富性。

可用提示词生成世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互形式,DeepMind 称之为可提示的世界事件(promptable world events)。

可提示的世界事件能够改变已经生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。

这种能力也能增加反事实(counterfactual)的广度,即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被 agent 根据学习过的经验来处理意外情况。

局限性

虽然 Genie 3 堪称前所未有的世界模型,但局限性依然存在,具体包括:

  • 动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由 agent 自身执行。agent 可以直接执行的动作范围目前受到限制。
  • 其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互仍然很难。
  • 真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。
  • 文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。
  • 交互时间有限。目前 Genie 3 支持几分钟的连续交互,而非数小时。

未来值得期待

谷歌 DeepMind 也在博客中透露了他们对于 Genie 3 以及在世界模型这个研究方向上的未来计划。

他们表示:「我们相信 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在未来让更多测试者使用 Genie 3。」

他们预计 Genie 3 将为教育和培训创造新的机会,帮助学生学习和专家积累经验。比如,Genie 3 可以让你探索古希腊的街道:

它不仅能提供广阔的空间来训练机器人和自主系统等智能体,还能使评估智能体性能、探索其弱点成为可能。

比如在下面的视频中,为了探索智能体训练的潜力,DeepMind 将 SIMA 智能体置于 Genie 3 世界中,并设定了目标。智能体会采取行动,Genie 3 能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的具身智能体至关重要。

从 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副总裁、深度学习领导者 Oriol Vinyals 说的「神经视频游戏」,已经实现了令人难以置信的进化。

或许未来,谷歌真的能造出《星际迷航》中的全息甲板!

DeepMind CEO、诺奖得主 Demis Hassabis 的推文

对于 Genie 3 世界模型,你有什么看法?

https://x.com/GoogleDeepMind/status/1952732150928724043

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

文中视频链接:

https://mp.weixin.qq.com/s/iI0-UDW70nOqyRb95WuZNw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋勤勤突然红了眼眶,说吴越至今未婚,是自己二十年过不去的心结

蒋勤勤突然红了眼眶,说吴越至今未婚,是自己二十年过不去的心结

观察鉴娱
2026-06-26 10:43:23
“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

呼呼历史论
2026-06-27 16:31:11
突发!77岁传奇歌手演唱会晕倒送医,两场演出紧急取消

突发!77岁传奇歌手演唱会晕倒送医,两场演出紧急取消

赴一场山海啊
2026-06-27 00:37:04
存款大局已定?不出意外,2026年7月后,居民储蓄或迎来3大变局

存款大局已定?不出意外,2026年7月后,居民储蓄或迎来3大变局

次元君情感
2026-06-27 15:38:21
从春晚常驻到销声匿迹,贾玲的现状,彻底暴露了娱乐圈的人情冷暖

从春晚常驻到销声匿迹,贾玲的现状,彻底暴露了娱乐圈的人情冷暖

素玉姑娘
2026-06-27 13:31:33
非洲10个名额多么?7支非洲球队晋级32强,当前仅突尼斯出局

非洲10个名额多么?7支非洲球队晋级32强,当前仅突尼斯出局

懂球帝
2026-06-27 14:52:17
美团回应“带娃送外卖”等视频:经核实,“小洪”3月至今完成19单,发布15条视频并开通带货功能、定期直播;提醒MCN不要策划苦情剧本

美团回应“带娃送外卖”等视频:经核实,“小洪”3月至今完成19单,发布15条视频并开通带货功能、定期直播;提醒MCN不要策划苦情剧本

极目新闻
2026-06-26 17:42:55
火车霸座咬人风波升级!大妈踢到铁板,受害者发声,估计要赔大了

火车霸座咬人风波升级!大妈踢到铁板,受害者发声,估计要赔大了

音乐时光的娱乐
2026-06-27 16:56:39
柳州市柳南区发生3.6级地震,震源深度5千米

柳州市柳南区发生3.6级地震,震源深度5千米

新京报
2026-06-27 12:22:28
别太悲观!韩国最新出线形势:还剩3组未踢,需2组配合,依旧有戏

别太悲观!韩国最新出线形势:还剩3组未踢,需2组配合,依旧有戏

萌兰聊个球
2026-06-27 13:44:25
苹果返校促销迟到,免费AirPods还有戏吗?

苹果返校促销迟到,免费AirPods还有戏吗?

爬虫饲养员
2026-06-26 10:09:58
出线分析丨伊朗命悬一线,韩国出局,亚洲仅两队能进32强

出线分析丨伊朗命悬一线,韩国出局,亚洲仅两队能进32强

宝哥精彩赛事
2026-06-27 13:54:29
东鹏特饮发声明:所谓饭局视频为凭空捏造、无任何事实依据,已固定证据并向公安机关报案

东鹏特饮发声明:所谓饭局视频为凭空捏造、无任何事实依据,已固定证据并向公安机关报案

大风新闻
2026-06-27 20:06:07
112名“中国留学生”被调查,亲历者发声

112名“中国留学生”被调查,亲历者发声

中国新闻周刊
2026-06-27 20:24:41
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
朝阳群众又立新功!网红印度餐厅上午爆火下午凉透老板直接遣返!

朝阳群众又立新功!网红印度餐厅上午爆火下午凉透老板直接遣返!

社会日日鲜
2026-06-26 12:34:14
第38届大众电影百花奖投票正火热进行

第38届大众电影百花奖投票正火热进行

中国电影报
2026-06-26 12:41:53
从97%晋级率到濒临出局:看太极虎是如何一步步走向命悬一线

从97%晋级率到濒临出局:看太极虎是如何一步步走向命悬一线

小柨拍客在北漂
2026-06-27 19:40:34
姆巴佩若夺冠,GOAT之争直接大结局!梅西C罗也得低头!

姆巴佩若夺冠,GOAT之争直接大结局!梅西C罗也得低头!

樱桃小丸子1987
2026-06-27 19:04:43
4个首轮签!最快速度交易!再见了,凯尔特人

4个首轮签!最快速度交易!再见了,凯尔特人

宝哥精彩赛事
2026-06-27 09:18:59
2026-06-28 00:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13372文章数 142681关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

打击中东美军多个目标后 伊朗最高领袖军事顾问表态

头条要闻

打击中东美军多个目标后 伊朗最高领袖军事顾问表态

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

旅游
教育
数码
家居
公开课

旅游要闻

打破时空限制,在热气球上邂逅一年四季最美古镇

教育要闻

太求稳了!高考678分考生要放弃C9保专业,西安交大也不愿意选

数码要闻

台积电订单排名出炉:英伟达稳居榜首、AMD紧随其后

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版