网易首页 > 网易号 > 正文 申请入驻

谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙,终极模拟器觉醒

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】老黄曾预言,每个像素都将由AI生成!刚刚,谷歌DeepMind放出的「通用世界模型」Genie 3,一句话即生720p实时模拟世界,1分钟视觉记忆一致性超高。

全球最强「世界AI模拟器」今夜诞生!

刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。


一句话,Genie 3即可生成一个动态世界。

令人惊艳的是,它能以每秒20-24帧速度,实时生成720p画面,还能持续数分钟一致性。


相比于前代,Genie 3在生成时长方面也得到了史诗级的加强——一口气能搞定长达数分钟,且内容连贯的可交互世界。

英伟达Jim Fan高度评价,「这就是游戏引擎2.0时代」!

总有一天,UE5所有复杂功能,都能被一个数据驱动的「注意力权重」吸纳。

未来,只需要将手柄指令作为输入,即可渲染一段时空中的像素画面。


如今,Genie 3的问世,标志着世界模拟AI迈向了全新高度,加速了人类通向AGI/ASI的终极目标。


AI实时交互模拟,真·矩阵世界

一直以来,「世界模型」被业界看作是通往AGI道路上的关键基石。

因为,它能让AI智能体在无限丰富的模拟环境中接受训练。


十多年来,谷歌DeepMind一直在模拟环境领域引领前沿研究,从训练AI智能体玩转即时战略游戏,到为开放式学习和机器人技术开发模拟环境。

正是在这些研究的推动下,他们开发出了「世界模型」。

它能够利用其对世界的理解,来模拟世界的方方面面,从而让AI智能体可以预测环境如何演变,以及自身行为带来的影响。

去年,谷歌DeepMind首次放出世界模型——Genie 1和Genie 2,它们能为AI智能体生成全新的环境。

此外,Veo 2、Veo 3模型相继迭代,也在不断突破视频生成的技术前沿,能够深刻理解物理世界的规律。

每一款模型,都标志着世界模拟在不同能力维度上的进步。


而Genie 3,是谷歌DeepMind首个支持「实时交互」的世界模型。

相较于Genie 2,一致性和真实感均有提升。


谷歌DeepMind研究员Ali Eslami惊叹道,Genie 3绝对是自ChatGPT以来最令人印象深刻的演示。

2016年,他曾研究「神经表示与渲染」隐约看到通往这一目标路径,但没想到这一天来得这么快。



Hassabis同样感慨道,上世纪90年代,当自己设计模拟游戏时,曾梦想有一天实现这一技术。如今,愿望终于达成。


接下来,具体看看Genie 3具备哪些强大能力?

· 模拟物理世界

理解物理世界,是任何一个世界模型必备能力。

Genie 3不仅可以生成水流、光照等自然现象,还能与复杂环境进行交互。






左右滑动查看

· 模拟自然世界

Genie 3还可以生成充满生命力的自然系统,不论是错综复杂的森林、花草等植物,还是各种生物,都能让人仿佛置身于真实生态之中。





左右滑动查看

· 创建动画奇幻世界

不仅如此,Genie 3的想象力也没有边界。

它能创造出奇幻场景,以及富有表现力的动画角色,比如彩虹桥上的卡通狐狸、森林中的萤火虫等等。





左右滑动查看

· 探索地点与历史场景

更令人想不到的是,Genie 3还能玩穿越。

不论是重现古代文明的辉煌,还是探索不同的地方,它都能带你跨越时空,体验景点的独特魅力。





左右滑动查看

不得不说,Genie 3的实时交互能力,令人叹为观止。

那么,谷歌DeepMind是如何具体实现的呢?

一分钟视觉记忆,Genie 3涌现了

要实现Genie 3的实时交互与长时程一致性,技术团队攻克了诸多难题。

在自回归地生成每一帧画面的过程中,模型必须考虑到随时间推移而不断延长的先前轨迹。

举个栗子,当玩家在一分钟后重访某个地点时,模型必须调取一分钟前的相关信息。

为了实现实时交互,这种计算必须在新用户输入抵达时每秒执行多次,以做出即时响应。


此外,要让AI生成的世界富有沉浸感,就必须在很长的时间跨度内保持物理上的一致性。

然而,自回归地生成一个环境,通常比一次性生成整个视频的技术难度更大,因为微小误差会随时间累积。

尽管面临这一挑战,Genie 3生成的环境仍能在数分钟内基本保持一致,其视觉记忆最远可追溯到一分钟前。






左右滑动查看

如下图可见,建筑左侧的树木在交互过程中始终如一,即使时隐时现也保持稳定。



Genie 3的一致性是一种涌现能力。

NeRFs和高斯溅射(Gaussian Splatting)虽然也能实现一致的可导航3D环境,但它们依赖于提供显式的3D表征。

相比之下,Genie 3 生成的世界则远为动态和丰富,因为它们是模型根据世界描述和用户行为逐帧创造出来的。

一句话,一个世界

除了导航输入,Genie 3还支持一种更具表现力的文本交互形式,团队称之为「由提示词驱动的世界事件」。

直白讲,一句话生成世界。

不论是改变天气,还是引入新物体或角色,这种能力大幅提升了沉浸感。

与此同时,它也拓展了反事实(即what if)场景的广度,可供 AI 智能体在经验学习中用于处理各种意外情况。

比如,在北美大草原上,你可以让Genie 3即时生成一辆绿色拖拉机、一位骑马的人;在滑雪场景中,生成一个衣服上印有「Genie 3」的人,或是一个香蕉滑翔伞;在伦敦街景中,还可以空降Dragon。




左右滑动查看

智能体「试炼场」

为了验证Genie 3所创世界,对未来AI智能体训练的兼容性,团队为新版SIMA智能体生成了多个世界。

在每个世界中,都指示该智能体去达成一系列特定目标。

它会通过向Genie 3发送导航指令,来尝试完成任务。假设让它走向和面机和面包架,Genie 3都能指示智能体去完成目标。





左右滑动查看

与所有其他环境一样,Genie 3并不知道智能体的目标,它只是根据智能体的行为来模拟世界的未来走向。

由于Genie 3能够保持一致性的能力,现在可以执行更长的动作序列,以实现更复杂的目标。




左右滑动查看

局限性

尽管Genie 3拓展了世界模型的能力边界,但也存在一定的局限性,具体包含以下5点:

  • 有限的动作空间

虽然由「提示词驱动的世界事件」允许广泛的环境干预,但这些干预不一定由AI智能体自身执行。AI智能体目前能直接执行的动作范围仍然有限。

  • 与其他智能体的交互和模拟

在共享环境中精确模拟多个独立智能体之间的复杂互动,仍是研究领域的一大挑战。

  • 真实世界位置的准确表征

Genie 3 目前还无法以完美的地理精度模拟真实世界的地点。

  • 文本渲染

通常只有在输入的世界描述中提供了文本信息时,模型才能生成清晰易读的文字。

  • 有限的交互时长

模型目前可支持数分钟的连续交互,而非长达数小时的持续互动。

世界模型,分水岭已至

尽管如此,Genie 3是世界模型发展的一个重要里程碑。

它能为教育和培训创造新机遇,帮助学生学习、助力专家积累经验。

它不仅能为机器人和自主系统等 AI 智能体提供广阔的训练空间,还能用于评估智能体的性能并探究其弱点。

在迈向AGI征途中,Genie 3描绘了一个由AI加持,充满交互与创意的世界,一个世界模型全新的未来。


再次狙击Genie 3之后,OpenAI团队Steven Heidel献上彩虹屁,「真是一个见证AGI时刻」。


神仙打架的好戏,正式开演。

参考资料:

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏暴打母亲男社死!央媒紧急介入,对话内容曝光,坐牢只是开始

江苏暴打母亲男社死!央媒紧急介入,对话内容曝光,坐牢只是开始

花心电影
2025-11-12 14:28:38
连爆大冷,赵心童6-5大逆转+黑球绝杀了世界第2,晋级四强附赛程

连爆大冷,赵心童6-5大逆转+黑球绝杀了世界第2,晋级四强附赛程

求球不落谛
2025-11-12 06:15:14
10分击败北京,山东斩获第5,鞠维松完成任务,陶汉林收官战26+17

10分击败北京,山东斩获第5,鞠维松完成任务,陶汉林收官战26+17

萌兰聊个球
2025-11-12 15:22:52
钱学森回国薪资仅几百元,但他有个特殊待遇,连10位元帅都享不到

钱学森回国薪资仅几百元,但他有个特殊待遇,连10位元帅都享不到

鹤羽说个事
2025-11-10 15:34:06
表述悄悄改变,“中国香港”四个字突然变成“香港”,我们更强了

表述悄悄改变,“中国香港”四个字突然变成“香港”,我们更强了

我心纵横天地间
2025-11-11 08:16:55
换汤不换药!红色符号扎堆营销,人民咖啡馆改名,网友依然不买账

换汤不换药!红色符号扎堆营销,人民咖啡馆改名,网友依然不买账

眼光很亮
2025-11-12 16:32:08
央视新闻这话也太戳人了:

央视新闻这话也太戳人了:

小光侃娱乐
2025-11-12 17:05:03
A股:不必等明天开盘了,股市已经有变化,周四很可能这样走了

A股:不必等明天开盘了,股市已经有变化,周四很可能这样走了

财经大拿
2025-11-12 13:35:28
俱乐部主帅年薪榜:小因扎吉全球第1瓜帅次席 皇萨未进top10

俱乐部主帅年薪榜:小因扎吉全球第1瓜帅次席 皇萨未进top10

新英体育
2025-11-12 10:40:54
中日若因高市早苗闹翻,中了特朗普的计?关键时,普京帮中国一把

中日若因高市早苗闹翻,中了特朗普的计?关键时,普京帮中国一把

现代小青青慕慕
2025-11-11 09:50:24
佛山一地面车库“爆改”成酒楼?业主吐槽:小区就像“无掩鸡笼”!开发商这波操作实在“魔幻”……

佛山一地面车库“爆改”成酒楼?业主吐槽:小区就像“无掩鸡笼”!开发商这波操作实在“魔幻”……

佛山电视台小强热线
2025-11-11 21:37:46
易立现状:40岁脾气大依然瘦,退役转型成功, 老婆在大学任教

易立现状:40岁脾气大依然瘦,退役转型成功, 老婆在大学任教

白面书誏
2025-11-11 12:25:08
志愿军司令部高级参谋李默尹,究竟啥级别的干部?55年能授何衔?

志愿军司令部高级参谋李默尹,究竟啥级别的干部?55年能授何衔?

南书房
2025-11-11 16:15:03
孙俪的午餐惊讶到了 照这样吃下去不瘦才怪 看着好好吃啊

孙俪的午餐惊讶到了 照这样吃下去不瘦才怪 看着好好吃啊

TVB的四小花
2025-11-12 11:06:21
三女共侍一夫!每人每月50万零花钱,57岁色心不改又包“四奶”?

三女共侍一夫!每人每月50万零花钱,57岁色心不改又包“四奶”?

苗苗情感说
2025-11-12 07:36:16
急了!日本前自卫队员向我国使馆抗议:你们是最不受欢迎的国家

急了!日本前自卫队员向我国使馆抗议:你们是最不受欢迎的国家

荷兰豆爱健康
2025-11-12 11:47:30
水晶手串在TikTok卖疯,溢价30倍,卖家已经赚翻

水晶手串在TikTok卖疯,溢价30倍,卖家已经赚翻

跨境派Pro
2025-11-10 14:38:56
苏州警方通报骑警因操作失误擦碰观众:对涉事队员批评教育,三名伤者均已离院回家

苏州警方通报骑警因操作失误擦碰观众:对涉事队员批评教育,三名伤者均已离院回家

界面新闻
2025-11-11 16:55:19
今晚19-30直播表:CCTV5+节目单及乒乓球赛程安排

今晚19-30直播表:CCTV5+节目单及乒乓球赛程安排

阿薎美食
2025-11-12 15:17:27
沙特不续签,人民币形成闭环体系

沙特不续签,人民币形成闭环体系

诗意世界
2025-11-11 23:12:45
2025-11-12 17:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13849文章数 66244关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

艺术
时尚
家居
教育
手机

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

“廓形穿衣法”太火了!掌握这5个法则让你美一整个冬天

家居要闻

情感之所 生活教会设计

教育要闻

教育部重磅部署为教师减负,这次能带来彻底好转吗? “除了畜牧局,都在使唤我们”,教育部重磅部署为教师...

手机要闻

OPPO Reno15星光蝴蝶结图赏:甜酷辣妹必备的小直屏

无障碍浏览 进入关怀版