网易首页 > 网易号 > 正文 申请入驻

世界模型超真实地模拟真实世界:谷歌Genie 3昨晚抢了OpenAI风头

0
分享至

机器之心报道

编辑:冷猫、Panda

昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。

Genie 3是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界,可能性无穷无尽。」

据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性

相比于前一代 Genie 2 世界模型、使用扩散模型的游戏生成引擎 GameNGen 以及视频生成模型 Veo,最新的 Genie 3 在多个特性上都具有明显优势。

比如,相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时还支持使用提示词生成世界事件,并能维持数分钟的一致性(DeepMind 将其称为「交互视界」)。更重要的是,Genie 3 还能做到实时响应。

而相比于专用于游戏生成的 GameNGen,Genie 3 更加通用,同时在分辨率等其它指标上都远远胜之。

最后与 Veo 3 对比,虽然 Genie 3 在分辨率这一点上还有不足,但在其它方面却优势明显。

Genie 3 一宣布就激起夸声一片。

Genie 3 团队的 Matt McGill 分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。

一时间,风头甚至盖过了近段时间来备受期待的 OpenAI 开源模型。

下面,我们来看看 Genie 3 生成的一些具体能力和案例。

Genie 3 的能力

作为最新前沿的世界模型,Genie 3 具备构建一个完整世界的全部能力,并且能够在较长时间范围内保证生成的世界连贯且可交互,其功能包括:

  • 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。
  • 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。
  • 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。
  • 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。

Prompt: Walking on a pavement in Florida next to a two-lane road from one side and the seaon the other, during an approaching hurricane, with strong wind and waves splashing over theroad. There is a railing on the left of the agent, separating them from the sea. The road goesalong the coast, with a short bridge visible in front of the agent. Waves are splashing over therailing and onto the road one after another. Palm trees are bending in the wind. There is heavyrain, and the agent is wearing a rain coat. Real world, first-person.

提示词:在佛罗里达州的人行道上行走,一边是双向车道,另一边是海洋,正值即将来临的飓风,强风和波浪拍打着路面。agent 的左侧有一道栏杆,将其与海洋隔开。道路沿着海岸线延伸,agent 波浪接连不断地拍打着栏杆,涌上路面。棕树在风中弯曲。大雨倾盆,agent 前方可见一座短桥。agent 穿着雨衣。真实世界,第一人称。

Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep oceacanyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.

提示词真实世界的追踪镜头,在深邃昏暗的海洋中穿梭,穿过深海的峡谷,密集的大群水母在游动,生物发光照明。

Prompt: Being a lizard, origami style

提示词:你是一只蜥蜴,折纸风格

Prompt: Venice by Vaporetto. The canals of Venice are recreated with painstaking detall. Thewater has realistic reflections and wakes, The buildings show crumbling plaster and centuriesof weathering. The scene is populated with other gondolas, water taxis, and barges.

提示词威尼斯的汽船。威尼斯的运河以精心细致的细节重新创造。水面有逼真的反射和波纹。建筑物显示出剥落的灰泥和数百年的风化。场景中还有其他贡多拉船、水上出租车和驳船。

实时响应和长时间一致性

这一次 Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。

为了实现 Genie 3 在可控性和实时交互性方面的高水平表现,谷歌在技术上取得了一系列的重大突破。

在每一帧的自回归生成过程中,模型需要持续考虑随着时间增长的轨迹信息。例如,当用户在一分钟后再次回到某个地点时,模型必须能够回溯并引用一分钟前生成的相关信息。

而要实现真正的实时交互,这种计算必须每秒多次完成,以便及时响应不断到来的用户输入。

为了让 AI 生成的世界更具有沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多,因为误差往往会随时间逐步累积。

尽管面临这一挑战,Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。

建筑物左侧的树木在整个交互过程中保持一致,即使它们进出视野也是如此。

虽作为世界模型,Genie 3 本质上仍是一个二维的图像 / 视频生成模型,与直接的三维场景生成具有显著的区别。

简单来说,Genie 3 的一致性是一种「涌现能力(emergent capability)」,能够生成更加丰富,动态,变化的世界,因为世界是基于世界描述和用户动作逐帧生成的。

而其他基于三维模型的方法,如 NeRF 和 Gaussian Splatting,同样可以生成具有一致性的可导航三维环境,但它们依赖于三维表示作为输入,显著限制了场景的丰富性。

可用提示词生成世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互形式,DeepMind 称之为可提示的世界事件(promptable world events)。

可提示的世界事件能够改变已经生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。

这种能力也能增加反事实(counterfactual)的广度,即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被 agent 根据学习过的经验来处理意外情况。

局限性

虽然 Genie 3 堪称前所未有的世界模型,但局限性依然存在,具体包括:

  • 动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由 agent 自身执行。agent 可以直接执行的动作范围目前受到限制。
  • 其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互仍然很难。
  • 真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。
  • 文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。
  • 交互时间有限。目前 Genie 3 支持几分钟的连续交互,而非数小时。

未来值得期待

谷歌 DeepMind 也在博客中透露了他们对于 Genie 3 以及在世界模型这个研究方向上的未来计划。

他们表示:「我们相信 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在未来让更多测试者使用 Genie 3。」

他们预计 Genie 3 将为教育和培训创造新的机会,帮助学生学习和专家积累经验。比如,Genie 3 可以让你探索古希腊的街道:

它不仅能提供广阔的空间来训练机器人和自主系统等智能体,还能使评估智能体性能、探索其弱点成为可能。

比如在下面的视频中,为了探索智能体训练的潜力,DeepMind 将 SIMA 智能体置于 Genie 3 世界中,并设定了目标。智能体会采取行动,Genie 3 能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的具身智能体至关重要。

从 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副总裁、深度学习领导者 Oriol Vinyals 说的「神经视频游戏」,已经实现了令人难以置信的进化。

或许未来,谷歌真的能造出《星际迷航》中的全息甲板!

DeepMind CEO、诺奖得主 Demis Hassabis 的推文

对于 Genie 3 世界模型,你有什么看法?

https://x.com/GoogleDeepMind/status/1952732150928724043

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

文中视频链接:

https://mp.weixin.qq.com/s/iI0-UDW70nOqyRb95WuZNw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一旦中国同时发射24枚东风41,号称“世界第一”美国,能否拦住呢

一旦中国同时发射24枚东风41,号称“世界第一”美国,能否拦住呢

疯狂的小历史
2026-04-17 11:06:48
场均三双俱乐部,终于迎来第二位会员——约基奇

场均三双俱乐部,终于迎来第二位会员——约基奇

茅塞盾开本尊
2026-04-14 14:15:53
权恩妃,真不是盖的!!这谁忍得住不爱?

权恩妃,真不是盖的!!这谁忍得住不爱?

乡野小珥
2026-04-18 19:10:23
贾浅浅被查,拼爹失败!

贾浅浅被查,拼爹失败!

新浪财经
2026-04-14 15:56:51
奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

毒舌小红帽
2026-04-17 18:24:06
亲人去世,请假反被辞

亲人去世,请假反被辞

南风窗
2026-04-16 21:45:03
气温回暖,猝死的人越来越多?医生强调:宁睡到中午,也别做5事

气温回暖,猝死的人越来越多?医生强调:宁睡到中午,也别做5事

医学原创故事会
2026-04-14 23:52:04
睡了亲表妹8年,表嫂竟在旁“把关”,撕开了人性最丑陋的一面!

睡了亲表妹8年,表嫂竟在旁“把关”,撕开了人性最丑陋的一面!

樱桃小丸子1987
2026-04-18 14:19:29
四川省副省长徐芝文履新西藏自治区党委常委、宣传部部长

四川省副省长徐芝文履新西藏自治区党委常委、宣传部部长

澎湃新闻
2026-04-18 16:10:27
黄宏现状:住北京普通小区,闲时照顾外孙女,65岁走路需要人搀扶

黄宏现状:住北京普通小区,闲时照顾外孙女,65岁走路需要人搀扶

素衣读史
2026-04-14 18:53:02
完全失控!澳大利亚,突然开始抓黑民!全部驱逐!

完全失控!澳大利亚,突然开始抓黑民!全部驱逐!

澳洲财经见闻
2026-04-18 16:36:08
张雪机车全球订单狂飙,超过5000名客商抢着当代理

张雪机车全球订单狂飙,超过5000名客商抢着当代理

IT之家
2026-04-18 17:16:04
张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

深度报
2026-04-14 22:45:47
百亿豪车巨头破产启示:负债60亿被套牢,浙商大佬也栽了

百亿豪车巨头破产启示:负债60亿被套牢,浙商大佬也栽了

老特有话说
2026-04-18 18:51:53
降雨!降温!江苏气象最新发布

降雨!降温!江苏气象最新发布

现代快报
2026-04-18 17:37:11
美国姑娘远嫁中国,回美国一趟哭了5天,母亲:你以后不要回来了

美国姑娘远嫁中国,回美国一趟哭了5天,母亲:你以后不要回来了

阿裤趣闻君
2026-04-16 21:15:07
全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

橙星文娱
2026-04-18 16:42:58
伊朗军方:因美国“背信弃义”,伊方已恢复对霍尔木兹海峡管控

伊朗军方:因美国“背信弃义”,伊方已恢复对霍尔木兹海峡管控

新民周刊
2026-04-18 19:07:47
外国人扎堆来中国看病:住院3天账单4万美元,被欧美医疗逼疯了!

外国人扎堆来中国看病:住院3天账单4万美元,被欧美医疗逼疯了!

古事寻踪记
2026-04-15 07:21:44
人老了必须明白,晚年什么都可以没有,唯独不能没有这两样东西

人老了必须明白,晚年什么都可以没有,唯独不能没有这两样东西

叮当当科技
2026-04-18 14:17:15
2026-04-18 19:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

《穿普拉达的女王2》疑似辱华?

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

亲子
游戏
本地
公开课
军事航空

亲子要闻

啥字呢?

《三角洲》动态暗示大的要来了 玩家开猜:联动姜文?

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解放军护卫舰与外舰缠斗20小时 细节披露

无障碍浏览 进入关怀版