独家对话｜10 秒造 3D！DeepMind Genie 3 引爆“沉浸式现实”万亿市场|谷歌|vr|机器人|知名企业|genie|deepmind

分享至

全文 4,000字 | 阅读约 13 分钟

（DeepMind独家对话：Genie 3背后的万亿级市场机会）

10秒，足够改变一切。

只需一行提示词，Genie 3 就能在你眼前铺开一个 720p、24fps 的 3D 世界。你可以操控、穿梭、改天换地。甚至几分钟前转身丢下的苹果，它也能准确记住。

这不是 demo，不是预渲染。

你看到的，是一个真的能“进去”的世界。

这背后不是魔术，而是 DeepMind 最新一次发布的成果。

在 8月 5 日《Machine Learning Street Talk》的独家专访中，DeepMind 研究总监 Shlomi Fuchter 首度披露：

Google DeepMind 刚刚发布的 Genie 3，是首个实时交互的通用世界模型。从此，生成的不再是视频，而是一整个“可玩宇宙”。

这背后的意义远超技术演示。它代表了一种新型 AI 能力的觉醒：

不需要明确的 3D 编程、物理规则、建模语言
控制器输入直接驱动神经网络生成世界
系统自己“记住”“理解”“构造”“重现”

而马斯克的评价更为直接：

但 Genie 的意义，远不止娱乐。

这是一个可以训练机器人、构建虚拟仓库、模拟社交互动，甚至构建下一代“数字孪生地球”的全新起点——当内容生成速度与沉浸交互深度相结合，就诞生了新的平台级入口。

市场也已给出信号。

据 Transparency Market Research 预测，沉浸式现实（XR）将在 2030 年突破 1.1 万亿美元市场规模，年复合增长率超 40%。而 Genie 3 的出现，正击中这个万亿市场最核心的痛点——内容创作效率低下。

这不仅是一项技术革命，更可能是一场平台级迁徙的开始。

第一节｜Genie 3：开启“可走进去”的 AI 世界

你可能会以为，这只是一个更逼真的视频生成工具。

但在 DeepMind 的两位核心研究人员眼中，Genie 3 和 Sora、Runway 、Kling 这些视频生成工具，甚至和 Unreal 这类传统技术，根本不在一个层次上。

Shlomi 开场就把 Genie 3 的定位讲得很清楚：

“我们不是生成一段视频，也不是复制一个场景，而是在创造一个可以‘动’的世界。”

第一个不同：从被动观看到主动体验

当前的视频生成模型（如 VEO 或 Sora），做得再好，也只能把提示词变成一段可以看的画面。你无法控制、无法互动，它只是一个“提前写好的片段”。

而 Genie 3 不同。

它不是“看完就结束”，而是“你能进去玩”，还能和场景互动、自由创造。

主持人用更直接的方式总结：

“这就像你走进了提示词写出的那个世界，每一步都是 AI 实时搭出来的。”

第二个不同：无需编程，智能涌现

Genie 3 不靠明确的物理引擎，也不需要手动设定灯光、材质、碰撞规则。

不像游戏引擎那样需要一个个模块去搭建，它只是接收一句提示词或控制器的输入，其余一切——包括世界长什么样、东西怎么动、事件怎么触发，全部由神经网络自动生成。

更令人惊讶的是：它还展现出一种"记住世界"的能力。

你曾看过的地方，再回来时，细节依然还在——不是因为程序预先设定好，而是它似乎“自然地知道”你去过那里。

Shlomi 解释说：

“它没有做出什么显式的 3D 构图，也没有把每个物体写成规则，它只是学会了：如果你去过某地，再回来，那里应该还在。”

第三个不同：实时生成，灵活可控

这不是静态的背景，而是一个“活的世界”。

你输入一句话：“一个穿 Genie T 恤的滑雪者出现”，模型就会让这个角色从远处滑下来。你再说：“一只鹿跑过”，它就真的在画面中跑过一只鹿。

Shlomi 说：

“这就是可提示的世界事件（prompted world events）。”

你不用重新制作，不用修改任何设置，只要说一句话，整个世界就会响应你的想法。

✅小结：Genie 3 做到三件老模型做不到的事

看到 Genie 3 的表现，英伟达高级 AI 研究科学家 Jim Fan 预测：

“UE5 （虚幻引擎5，知名游戏开发软件）那些复杂的技术，终将被一团 AI 神经网络搞定。”

换言之，AI 将直接学会创造世界，不再需要复杂的开发工具。

第二节｜Genie 3 的沉浸级能力，有多超前？

如果说传统视频模型让你'看世界'，那 Genie 3 则让你'进入世界'——真正的沉浸式交互体验。

DeepMind 研究科学家 Jack Parker Holder 说：

视频生成模型看起来像电影，Genie 更像是你能进到里面的游戏。

但这不是技术升级，而是体验革命：你能真正参与其中、影响场景发展、感受到 AI 的记忆能力—— AI 不再只是生成内容，而是成为你的世界创造伙伴。

以下，是 Genie 3 展示出来的几项关键能力。

（Genie 3 官方宣传视频）

一、从一张照片，生成一个可操作的世界

在采访现场，研究员展示了一张在加州拍的风景照片，然后他们让 Genie 生成一个世界。

主持人描述这个过程：

“我们把照片当作提示，然后按 W 键往前走，从那一刻开始，后面的每一帧都是 Genie 即时生成的。”

换句话说，你不是在“看”那张照片，而是进入了照片所代表的空间——你能在里面走动、转身、观察环境，甚至能回头看看刚刚路过的地方。

这就是 Genie 的基础能力之一：照片变世界，世界可探索。

二、提示即加戏：滑雪场、鹿群、T 恤角色都能生成

Genie 的沉浸感不仅在于它能“生成世界”，更在于——你可以不断往里加东西。

不是改一帧画面，而是改世界本身。

Jack 举了一个例子：先让 Genie 生成一个卧室，然后说：'开门，后面是厨房。' 几秒钟后，厨房真的被造出来了，你能直接走进去。

没有预设场景，也没有代码建模。

一句话，系统就理解你的意图，并拼接出一个可探索的新空间。

这不是 CG 动画里的定制镜头——而是一个可以随时修改的、真实存在的空间。

三、有记忆：三分钟前看到的苹果，还能被它“记得住”

这项能力，是整场对话中最令人震惊的部分之一。

研究人员在演示中设置了一个“黑板记忆测试”：你看到一张桌子上放着一个苹果，然后你走出去，过了几十秒，再回来看那个地方。

主持人说：

“苹果还在，它还记得几分钟前你看过它。这不像是缓存文件——而是它真的把你走过的那段世界记在了脑子里。”

Shlomi 解释得很精准：

“Genie 不生成完整的 3D 地图，也不靠固定的规则，它只是自然地学会了：你来过这儿，这儿就该还在。”

对普通人来说，这就像你熟悉一条街——你知道转角有棵树，下一次来还会留意它。

Genie 的表现，也像这样。它不靠脚本，不靠硬逻辑，而是通过训练出的“直觉”，学会了保留一致性、记住你去过哪里。

四、不是观众，而是视角的主人：沉浸感来自控制权

Genie 不只是生成内容，它会把你放在主视角。

Jack 说：

“这个模型是以使用者为中心来构建的，画面会根据你看的方向和位置来决定生成的细节。”

当你向某个区域靠近，那里就会开始变得更细腻、细节更丰富；如果你远离，它就会模糊过去。

这非常符合人类的感知习惯——我们总是对注意力焦点看得最清楚，而忽略边缘的细节。

而 Genie，也能做到这一点：它会把资源和注意力放在你正在看的地方。

Shlomi 总结说得很好：

“Genie 的世界不是‘预制’的，而是你走到哪，它就跟着‘长’到哪。”

第三节｜Genie 3 是 AI 的“练功房”吗？

我们已经看到，Genie 3 不只是生成一段画面，而是能让人进入一个不断生长的世界。

但这场访谈中，最让人兴奋的部分，是 DeepMind 对 Genie 的定位：这不是一个演示工具，而是一座可以训练 AI 的虚拟训练场。

Shlomi 一句话说透了：

“我们的目标是：AI 不用进入现实世界，就能先学会怎么应对真实场景。”

这听上去像一句口号，但从对话内容看，DeepMind 已经在认真推进这件事——用 Genie 来训练 AI 智能体，就像人类用飞行模拟器来训练飞行员一样。

一、模拟稀有场景，不靠真实世界去碰运气

Jack 举了一个例子来说明稀有事件的模拟能力：你可以在山坡上滑雪，然后输入一句提示：‘另一位滑雪者从坡上出现’，Genie 就会让这件事真的发生。

在现实世界中，这样的突发情况难以控制，获取数据代价极高。

但在 Genie 里，只要写一句话，这类罕见事件就能复现几十遍。

这种能力在自动驾驶训练中尤其重要。Shlomi 更进一步地说：你甚至可以用 Genie 训练一个过马路的机器人——让它去观察司机是否在减速，从而决定何时通行。

这一点非常关键，因为人类做这种事，是靠“眼神交流”“身体语言”“踩刹车的细节”来判断，而不是靠一个红绿灯。

Genie 的世界里，AI 可以在安全的空间里反复练习这些难以量化但关键的能力。

二、AI 不再等数据，而是自己制造训练机会

过去，我们训练 AI 需要大量数据——拍摄、标注、清洗……非常花时间。

而 Genie 带来的变化是：AI 可以自己生成世界，再在里面练习。

Shlomi 说：

“如果我们能模拟一个真实可信的世界，那就不用在现实中重复尝试。”

这句话听起来朴素，但背后代表着一次效率革命：

不用去仓库测试机器人搬箱子
不用让无人机实飞几百小时
不用靠真实事故来学会“预判危险”

只要 Genie 能模拟这些场景，AI 就能提前练好判断力和反应速度。

三、从行为到常识：Genie 3 能让 AI 学到“更像人的东西”

不仅是操作训练，Genie 还有可能让 AI 学到“更像人”的技能——比如观察、推理、适应环境。

Jack 提到：如果世界里出现一群鹿跑下山坡，AI 智能体能学会如何避让；如果车辆靠近，它能识别司机是否减速。

这不只是“识图”或“识别动作”，而是开始学会在不确定的环境中做出反应。

Shlomi 补充说：

“我们让 AI 在这个世界里练习，就像人类在现实中成长一样。”

也就是说，AI 终于有可能像人一样在环境中学会行为，而不是靠我们手动告诉它该做什么。

四、告别漫长等待：这是一场关于效率的革命

Shlomi 曾说过一个例子：开发一种新药，需要几个月才能试完一轮；但如果能在模拟中测试，就能把时间压缩到几分钟。

同样的逻辑也适用于 AI。

在 Genie 构建的世界里：

一个家庭机器人可以练习整理房间，不怕打碎花瓶
一个工业机器人可以优化搬运路径，不用撞到货架才学会绕路
一个助理型 AI 可以在虚拟办公室学会和人类协作，不必先踩坑

这不是降本工具，而是学习革命。

真正把"做中学"从物理世界搬到了数字空间。与传统的数据训练不同，这里让 AI 能在世界里真正'经历事情'。

第四节｜Genie 3，能成为“下一个平台”？

Genie 3，不只是一个能出画面的视频模型。

Shlomi 一句话点明了它的野心：

“这可能不是又一个视频模型，而是下一个世界模型平台。”

什么意思？

你可以把它理解为一套“沉浸式操作系统”的雏形形——不靠鼠标键盘，不需要点选拖拽，只要一句话，它就能在你眼前搭建出一个可探索、可交互、可记忆的虚拟空间。

Jack 这样形容：

“就像导演一样，你给一句话，它就能给你一整个动态世界——有天气、有人物、有反应。”

第一层视角：平台底座——沉浸式交互引擎

Genie 最大的突破，不在于画质，而在于实时响应的世界规则：

你走近一棵树，它会挡住光；
你绕过墙壁，再回头，人物还在原来的位置；
你转身跑开，系统也会记得刚才你看到的东西。

这不是做一段视频，而是生成一个真实的世界。 Shlomi 则说：“我们建的是一个可交互、可追踪的空间模型。”

这套"世界级输入法"未来能嵌进任何硬件——AR 眼镜、物联网屏幕、语音助手……

它不再是单独的视频工具，而是底层平台，可以让各种设备都具备这种能力。

第二层视角：应用场景——“秒建世界”的新基础设施

当生成技术从静态内容跨越到沉浸式交互，应用可能性瞬间被释放：

沉浸教育：孩子不再看视频学习行星知识，而是“进入太阳系”，亲身体验引力；
交互影视：一段剧情，不是写死，而是观众对话决定走向；
游戏生成：自然语言生成关卡、设定角色、调整难度，全过程可编辑。

DeepMind 不是为了做视频，而是要为各种应用建设新基础。

这意味着什么？创建虚拟世界将变得像搭积木一样简单。

第三层视角：创作者生态——从剪辑师变成“提示词导演”

这不是传统内容制作流程的升级，而是整个创作范式的重构。

过去你要用 Unity 或 Blender （专业3D建模和游戏开发软件）花几周做场景，现在你只需要一句提示词。

而这，正是新一代创作者机会所在：

不会建模？会写句子就能创造世界；
不懂编程？只要能表达意图，就能控制角色行动；
不想做美术？Genie 帮你生成场景、光影、素材全包。

Shlomi 明确说过：“模型越强，用户输入越简单，它创造的世界越复杂。”

这句话的潜台词是：未来不是你去适应平台，而是平台来适应你。而你要做的，是学会“描述一个世界”——这正是“提示词设计师”的新职业起点。

平台进化路线：从模型到生态入口

如果把 GPT 看作语言平台的基座，那 Genie 就是沉浸平台的开端。

这背后，是一个清晰可见的进化路径：

对标 GPT：输入变自然、输出更复杂，从助手到代理；
对标 YouTube：创作者低门槛涌入、构建内容社区；
对标 Unity：为 AR/VR/Web 提供世界创建工具，连接各类开发者。

一旦这些路径开始融合，Genie 就不再是单一模型，而是新平台的前身——承载多智能体、记忆模块、创作工具、运营框架等全栈能力。

未来这些模型会发展出自主协调能力：不是我们训练它怎么做，而是它自己学会如何组织任务。

一句话总结：

Genie 3 正在打开一个从“内容播放”到“世界生成”的新入口。

而谁能率先掌握这个入口，将其发展为下一代操作平台、生态中枢，就有机会在沉浸市场中占据制高点。

结语｜不是视频更炫，而是平台变了

Genie 3 不是在跟传统视频模型比拼清晰度，而是在打开一个全新的问题：

AI 能不能直接创造一个“世界”？

如果答案是肯定的，那今天我们看到的，还只是开端。

这不仅意味着更自然的交互方式，更意味着：

应用边界在消失：教育、游戏、机器人训练都成为可能；
创作门槛在消失：不会建模、不会剪辑，也能创造；
操作方式在消失：点击、拖动、代码，全都被一句话替代。

这已经不再是一个简单的视频制作工具，而是一个"虚拟世界工厂"——

你可以在里面真正生活、互动、探索。

下一个万亿级机会，可能不是谁的画面更好看，

而是谁能率先控制这种"造世界"的能力。

本文由 AI 深度研究院出品，内容翻译编辑自Google DeepMind Genie 3技术访谈。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=ekgvWeHidJs&t=2223s&ab_channel=MachineLearningStreetTalk

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

https://x.com/GoogleDeepMind/status/1952732150928724043

https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/

https://www.transparencymarketresearch.com/extended-reality-xr-market.html

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

独家对话｜10 秒造 3D！DeepMind Genie 3 引爆“沉浸式现实”万亿市场

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

86岁畅销书作家杨本芬就“抄袭”道歉 曾获谷雨文学奖

86岁畅销书作家杨本芬就“抄袭”道歉 曾获谷雨文学奖

一场必须要赢的比赛，男篮何止击败了裁判

继网暴谷爱凌后 美国欲没收其全部收入

魅族手机，终成弃子？

宝马X5传承版发布：给经典G05的一场体面谢幕？

态度原创

紫气东来，好运一整年！

巨亏160亿后，这家房企巨头，转战海南做贸易！

素色肌理 品意式格调

太牛了！苹果iPhone/iPad获准处理北约机密，安全等级堪比军工级

86岁畅销书作家杨本芬就“抄袭”道歉曾获谷雨文学奖

86岁畅销书作家杨本芬就“抄袭”道歉曾获谷雨文学奖

继网暴谷爱凌后美国欲没收其全部收入

素色肌理品意式格调