网易首页 > 网易号 > 正文 申请入驻

DeepMind 发布超真实世界模型 Genie 3,AGI 向前一步

0
分享至

雷峰网讯

就在昨晚,谷歌宣布推出通用型世界模型 Genie 3。用户可通过文本提示生成动态世界,以每秒 24 帧的速度进行实时交互。更重要的是,Genie 3 的生成内容可在 720p 分辨率下维持物理一致性“几分钟时间”,远超此前世界模型读秒级水平。

根据 DeepMind 的说法,Genie 3 是首个允许实时交互的世界模型。相较于该系列前作 Genie 2、游戏生成引擎 GameNGen 以及视频生成模型 Veo,Genie 3 在生成内容的连贯性上堪称质的飞跃,同时分辨率、交互性、延迟均在一流水平。

Genie 3 在业内人士之间也广受好评。英伟达高级科学家的 Jim Fan 称其是 Genie 1 基础上的“量子飞跃”。DeepMind 前科学家 Tejas Kulkarni 专门为其撰写长评,不仅高度评价 Genie 3 在通用性、物理规律、视觉记忆等方面的表现,更是称之为“实现 AGI 之前的最后一块拼图”。但同时,也指出其在多主体互动和长指令跟随方面存在明显缺陷。

目前研究团队正为 Genie 3 寻找更多测试者,其中一个被寄予厚望的应用场景是训练工具。不仅人类学生可以借助世界模型进行学习、积累经验,对于 Agent 来说,世界模型也意味着在多样化的交互环境中进行不断训练和性能评估成为可能。Agent 有望借此理解其行为如何影响环境的变化,并学着预测环境的演变。

“世界模型是通往通用人工智能(AGI)道路上的关键里程碑。”该团队表示。

连贯性质变:从秒级到分钟级

Genie 3 甫一发布便引起热议,甚至有用户 @el.cine 将其比作又一个 GPT 时刻。

Genie 3 研发团队的 Matt McGill 分享了自己生成的视频,称自己让角色试着”低头看看鞋,看模型是否理解什么是水坑”。用户@Boston | Capx AI 在其评论区感叹:“谷歌街景。”

看到 Genie 3 的生成效果,用户@The Canaanite 提醒 DeepMind 看好自家工程师,“Zuck 已经在提着十亿年薪赶来的路上。”

Genie 3 令人惊喜之处在于,其模拟真实世界时已不需要靠着高糊画面以假乱真,是依循真实物理规律的交互表现,和相对连贯的生成内容,让用户感到画面可信。

据DeepMind官方介绍,Genie 3 的功能具体包括:

模拟世界的物理属性:展现自然现象如水与光照,以及自然环境中的复杂交互;

模拟自然世界:从动物行为到错综复杂的植物生命,生成充满活力的生态系统;

建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色;

探索地点和历史背景:超越地理和时间的界限,探索不同的地方和过去的时代;

为了让 AI 生成的世界具有沉浸感,它们必须在长时间尺度上保持物理一致性。但基于自回归技术生成三维环境,通常比生成视频更具技术挑战性,因为误差往往会随着时间的推移而累积。

与传统的视频生成模型不同,Genie 3 通过在每一帧的自回归生成过程中,将此前的生成轨迹同步纳入计算以解决这一挑战。例如用户在世界模型中走上了一分钟之前的回头路,模型也就必须参考一分钟之前的相关信息。

用户每一次完成输入,这种计算便宣告开始,每秒钟进行多次。在用户和 Genie 3 的实时交互过程中,这一循环周而复始,由此三维场景的一致性从秒级提升至分钟级。

Genie 3 研发团队支持,通过 NeRF 和 Gaussian Splatting 等方法也能实现连贯的可交互 3D 环境,但它们依赖于用户提供明确的 3D 指示。而 Genie 3 的连贯性实质上是一种涌现能力,3D 环境基于世界描述和用户操作被逐帧创建,从而更具动态、富于变化。

Genie 3 还提供了一种新的基于文本的交互形式。除了前进后退,用户还能在其生成的三维场景中“呼风唤雨”。在 DeepMind 官方文档中,这被称为“可提示世界事件”。

这类事件意在改变已生成的世界,如修改天气状况,或引入新的物体和角色,从而增强从导航控制中获得的体验。

对于Agent而言,这种交互形式意味着其在与环境的交互过程中可以设想更多“如果……会怎样”的场景。这些场景将成为 Agent 提供学习如何应对意外情况的经验。

具身 AGI 向前一步

热度之下,Genie 3 的局限性也同样突出:

行动空间有限:尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由Agent自身执行。Agent能够直接执行的行动范围目前受到限制;

与其他智能体的交互与模拟:在共享环境中准确建模多个独立智能体之间的复杂交互,仍然是一个持续的研究挑战;

精确呈现真实世界位置:Genie 3 目前无法以完美的地理精度模拟真实世界位置;

文本渲染:通常只有在输入的世界描述中提供时,才能生成清晰易读的文本;

交互时间有限:Genie 3目前仅支持几分钟的连续交互,而不是数小时;

然而毋庸置疑的是,世界模型刚刚向我们的世界迈出了一大步。

用户 @Bilawal Sidhu 用同一个场景对比了 Genie 2 和 Genie 3 的表现。短短七个月时间,已然天差地别。

此前的世界模型,大多难以兼顾实时交互效果和物理一致性。根据用户提示渲染出的世界,可能在任何一帧分崩离析。而 Genie 3 发布后,研发团队的 @Jack Parker-Holder 则表示我们已经站在了世界模型的分水岭上,用户可以生成任何其想象中的世界,并进行多分钟的实时交互模拟。更为长远的意义在于,“这或许就是具身 AGI 的关键缺失部分。”

在 DeepMind 官方文件中,有一个特别的 Genie 3 用例。研究团队将专门应用于 3D 虚拟环境的通用 Agent “SIMA” 置于 Genie 3 生成的虚拟世界中,并为其设定了一组目标。

虽然与此前的世界模型一样,Genie 3 并不了解 SIMA 的目标,而是根据其动作模拟未来。但在 Genie 3 生成的虚拟世界中,更稳定的物理一致性使 SIMA 可以执行更长的动作序列、实现更复杂的目标,这一突破对于迈向通用人工智能有着至关重要的作用。

在不久前刚刚结束的 WAIC 上,Rich Sutton 曾形容 AI 是“创造事物的事物”。GPT-4 发布不到三年,我们可以借助 AI 创造的对象就从文本、代码跃升到了无限瑰丽的想象世界。

回到 Genie 3 发布时,DeepMind 提出的问题:如果你不仅可以观看生成的视频,还可以探索它,将会怎样?

在那个世界里,我们可上九天揽月,也可以化身自己的小狗,在海边漫步。

雷峰网文章

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这段野史,比正史还真

这段野史,比正史还真

我是历史其实挺有趣
2026-05-09 17:22:35
中国第1人!赵心童力压吴宜泽,斩获WST年度大奖,丁俊晖从未当选

中国第1人!赵心童力压吴宜泽,斩获WST年度大奖,丁俊晖从未当选

刘姚尧的文字城堡
2026-05-09 09:05:43
方媛三胎仅6个月,再次官宣喜讯,网友:不是谁都能成为天王嫂

方媛三胎仅6个月,再次官宣喜讯,网友:不是谁都能成为天王嫂

小叨娱乐
2026-05-09 23:13:14
皇马的内鬼就是他!高层怀疑索拉里泄密,他的处境变得尴尬

皇马的内鬼就是他!高层怀疑索拉里泄密,他的处境变得尴尬

懂个球
2026-05-09 15:31:10
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

篮球看比赛
2026-02-04 17:46:56
安徽省科学技术协会原党组书记、副主席金春龙被“双开”

安徽省科学技术协会原党组书记、副主席金春龙被“双开”

界面新闻
2026-05-09 19:33:37
最新发现:看似普通的“蚕豆”,对于脑梗患者是不可多得的宝贝

最新发现:看似普通的“蚕豆”,对于脑梗患者是不可多得的宝贝

健康之光
2026-05-08 19:50:06
邱彪队内总结怒了!明确动员无效,对不起球迷,面对镜头罕见爆粗

邱彪队内总结怒了!明确动员无效,对不起球迷,面对镜头罕见爆粗

篮球资讯达人
2026-05-10 00:28:17
这一脚踢碎110万欧!媒体人公开处刑申花天才:这耳光,杀人诛

这一脚踢碎110万欧!媒体人公开处刑申花天才:这耳光,杀人诛

生活新鲜市
2026-05-08 18:02:57
中超最强王者诞生!11轮狂卷31分,独一档存在让追赶者绝望

中超最强王者诞生!11轮狂卷31分,独一档存在让追赶者绝望

张辱卤说体育
2026-05-10 00:22:54
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
劳塔罗:我们展现了应有的职业素养;姆希塔良是所有人的榜样

劳塔罗:我们展现了应有的职业素养;姆希塔良是所有人的榜样

懂球帝
2026-05-10 03:19:50
媒体人:FIFA最初版权要4亿美元,央视最终报价远远不止6000万

媒体人:FIFA最初版权要4亿美元,央视最终报价远远不止6000万

懂球帝
2026-05-10 02:48:07
向佑夜店拥丰满女友,对方大10岁纹身金牙,向太:这种女人我不认

向佑夜店拥丰满女友,对方大10岁纹身金牙,向太:这种女人我不认

白面书誏
2026-05-09 19:15:09
宝马X3的韩国对手:动力更强,质保翻倍

宝马X3的韩国对手:动力更强,质保翻倍

码上闲叙
2026-05-09 01:01:33
心理学有个残忍真相:子女长大后不心疼你,从来不是他不懂感恩,也不是他薄情寡义,而是你早年这两种“隐形伤害”,亲手关闭他心疼人开关

心理学有个残忍真相:子女长大后不心疼你,从来不是他不懂感恩,也不是他薄情寡义,而是你早年这两种“隐形伤害”,亲手关闭他心疼人开关

心理观察局
2026-05-07 10:05:05
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
疯狂一夜:利雅得新月逆袭夺冠,多特蒙德3-2险胜,朗斯绝杀南特

疯狂一夜:利雅得新月逆袭夺冠,多特蒙德3-2险胜,朗斯绝杀南特

足球狗说
2026-05-09 05:13:46
库页岛有“三不”:不属于中国、不像俄罗斯、不承认过去

库页岛有“三不”:不属于中国、不像俄罗斯、不承认过去

闻识
2026-05-09 23:54:24
前后判若两人!今年季后赛的布里奇斯,什么水平?

前后判若两人!今年季后赛的布里奇斯,什么水平?

篮球实录
2026-05-10 00:31:11
2026-05-10 03:43:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69272文章数 656122关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
教育
家居
亲子
军事航空

艺术要闻

深圳终究失去“中国第一高楼”,华润接手地块!

教育要闻

天津女教师怼家长!完整录音曝光,老师很嚣张,饭碗恐不保了

家居要闻

菁英人居 全能豪宅

亲子要闻

妈妈说女儿休学一年,我教她3个笨办法

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版