全文 4,000字 | 阅读约 13 分钟
(DeepMind独家对话:Genie 3背后的万亿级市场机会)
10秒,足够改变一切。
只需一行提示词,Genie 3 就能在你眼前铺开一个 720p、24fps 的 3D 世界。 你可以操控、穿梭、改天换地。 甚至几分钟前转身丢下的苹果,它也能准确记住。
这不是 demo,不是预渲染。
你看到的,是一个真的能“进去”的世界。
这背后不是魔术,而是 DeepMind 最新一次发布的成果。
在 8月 5 日《Machine Learning Street Talk》的独家专访中,DeepMind 研究总监 Shlomi Fuchter 首度披露:
Google DeepMind 刚刚发布的 Genie 3, 是首个实时交互的通用世界模型。 从此,生成的不再是视频,而是一整个“可玩宇宙”。
这背后的意义远超技术演示。 它代表了一种新型 AI 能力的觉醒:
不需要明确的 3D 编程、物理规则、建模语言
控制器输入直接驱动神经网络生成世界
系统自己“记住”“理解”“构造”“重现”
而马斯克的评价更为直接:
但 Genie 的意义,远不止娱乐。
这是一个可以训练机器人、构建虚拟仓库、模拟社交互动,甚至构建下一代“数字孪生地球”的全新起点——当内容生成速度与沉浸交互深度相结合,就诞生了新的平台级入口。
市场也已给出信号。
据 Transparency Market Research 预测,沉浸式现实(XR)将在 2030 年突破 1.1 万亿美元市场规模,年复合增长率超 40%。而 Genie 3 的出现,正击中这个万亿市场最核心的痛点——内容创作效率低下。
这不仅是一项技术革命,更可能是一场平台级迁徙的开始。
第一节|Genie 3:开启“可走进去”的 AI 世界
你可能会以为,这只是一个更逼真的视频生成工具。
但在 DeepMind 的两位核心研究人员眼中,Genie 3 和 Sora、Runway 、Kling 这些视频生成工具,甚至和 Unreal 这类传统技术,根本不在一个层次上。
Shlomi 开场就把 Genie 3 的定位讲得很清楚:
“我们不是生成一段视频,也不是复制一个场景,而是在创造一个可以‘动’的世界。”
第一个不同:从被动观看到主动体验
当前的视频生成模型(如 VEO 或 Sora),做得再好,也只能把提示词变成一段可以看的画面。 你无法控制、无法互动,它只是一个“提前写好的片段”。
而 Genie 3 不同。
它不是“看完就结束”,而是“你能进去玩”, 还能和场景互动、自由创造。
主持人用更直接的方式总结:
“这就像你走进了提示词写出的那个世界,每一步都是 AI 实时搭出来的。”
第二个不同:无需编程,智能涌现
Genie 3 不靠明确的物理引擎,也不需要手动设定灯光、材质、碰撞规则。
不像游戏引擎那样需要一个个模块去搭建,它只是接收一句提示词或控制器的输入,其余一切——包括世界长什么样、东西怎么动、事件怎么触发,全部由神经网络自动生成。
更令人惊讶的是:它还展现出一种"记住世界"的能力。
你曾看过的地方,再回来时,细节依然还在——不是因为程序预先设定好,而是它似乎“自然地知道”你去过那里。
Shlomi 解释说:
“它没有做出什么显式的 3D 构图,也没有把每个物体写成规则,它只是学会了:如果你去过某地,再回来,那里应该还在。”
第三个不同:实时生成,灵活可控
这不是静态的背景,而是一个“活的世界”。
你输入一句话:“一个穿 Genie T 恤的滑雪者出现”,模型就会让这个角色从远处滑下来。 你再说:“一只鹿跑过”,它就真的在画面中跑过一只鹿。
Shlomi 说:
“这就是可提示的世界事件(prompted world events)。”
你不用重新制作,不用修改任何设置,只要说一句话,整个世界就会响应你的想法。
✅小结:Genie 3 做到三件老模型做不到的事
看到 Genie 3 的表现,英伟达高级 AI 研究科学家 Jim Fan 预测:
“UE5 (虚幻引擎5,知名游戏开发软件)那些复杂的技术,终将被一团 AI 神经网络搞定。”
换言之,AI 将直接学会创造世界,不再需要复杂的开发工具。
第二节|Genie 3 的沉浸级能力,有多超前?
如果说传统视频模型让你'看世界',那 Genie 3 则让你'进入世界'——真正的沉浸式交互体验。
DeepMind 研究科学家 Jack Parker Holder 说:
视频生成模型看起来像电影,Genie 更像是你能进到里面的游戏。
但这不是技术升级,而是体验革命:你能真正参与其中、影响场景发展、感受到 AI 的记忆能力—— AI 不再只是生成内容,而是成为你的世界创造伙伴。
以下,是 Genie 3 展示出来的几项关键能力。
(Genie 3 官方宣传视频)
一、从一张照片,生成一个可操作的世界
在采访现场,研究员展示了一张在加州拍的风景照片,然后他们让 Genie 生成一个世界。
主持人描述这个过程:
“我们把照片当作提示,然后按 W 键往前走,从那一刻开始,后面的每一帧都是 Genie 即时生成的。”
换句话说,你不是在“看”那张照片,而是进入了照片所代表的空间——你能在里面走动、转身、观察环境,甚至能回头看看刚刚路过的地方。
这就是 Genie 的基础能力之一:照片变世界,世界可探索。
二、提示即加戏:滑雪场、鹿群、T 恤角色都能生成
Genie 的沉浸感不仅在于它能“生成世界”,更在于——你可以不断往里加东西。
不是改一帧画面,而是改世界本身。
Jack 举了一个例子:先让 Genie 生成一个卧室,然后说:'开门,后面是厨房。' 几秒钟后,厨房真的被造出来了,你能直接走进去。
没有预设场景,也没有代码建模。
一句话,系统就理解你的意图,并拼接出一个可探索的新空间。
这不是 CG 动画里的定制镜头——而是一个可以随时修改的、真实存在的空间。
三、有记忆:三分钟前看到的苹果,还能被它“记得住”
这项能力,是整场对话中最令人震惊的部分之一。
研究人员在演示中设置了一个“黑板记忆测试”: 你看到一张桌子上放着一个苹果,然后你走出去,过了几十秒,再回来看那个地方。
主持人说:
“苹果还在,它还记得几分钟前你看过它。这不像是缓存文件——而是它真的把你走过的那段世界记在了脑子里。”
Shlomi 解释得很精准:
“Genie 不生成完整的 3D 地图,也不靠固定的规则,它只是自然地学会了:你来过这儿,这儿就该还在。”
对普通人来说,这就像你熟悉一条街——你知道转角有棵树,下一次来还会留意它。
Genie 的表现,也像这样。它不靠脚本,不靠硬逻辑,而是通过训练出的“直觉”,学会了保留一致性、记住你去过哪里。
四、不是观众,而是视角的主人:沉浸感来自控制权
Genie 不只是生成内容,它会把你放在主视角。
Jack 说:
“这个模型是以使用者为中心来构建的,画面会根据你看的方向和位置来决定生成的细节。”
当你向某个区域靠近,那里就会开始变得更细腻、细节更丰富;如果你远离,它就会模糊过去。
这非常符合人类的感知习惯——我们总是对注意力焦点看得最清楚,而忽略边缘的细节。
而 Genie,也能做到这一点:它会把资源和注意力放在你正在看的地方。
Shlomi 总结说得很好:
“Genie 的世界不是‘预制’的,而是你走到哪,它就跟着‘长’到哪。”
第三节|Genie 3 是 AI 的“练功房”吗?
我们已经看到,Genie 3 不只是生成一段画面,而是能让人进入一个不断生长的世界。
但这场访谈中,最让人兴奋的部分,是 DeepMind 对 Genie 的定位:这不是一个演示工具,而是一座可以训练 AI 的虚拟训练场。
Shlomi 一句话说透了:
“我们的目标是:AI 不用进入现实世界,就能先学会怎么应对真实场景。”
这听上去像一句口号,但从对话内容看,DeepMind 已经在认真推进这件事——用 Genie 来训练 AI 智能体,就像人类用飞行模拟器来训练飞行员一样。
一、模拟稀有场景,不靠真实世界去碰运气
Jack 举了一个例子来说明稀有事件的模拟能力:你可以在山坡上滑雪,然后输入一句提示:‘另一位滑雪者从坡上出现’,Genie 就会让这件事真的发生。
在现实世界中,这样的突发情况难以控制,获取数据代价极高。
但在 Genie 里,只要写一句话,这类罕见事件就能复现几十遍。
这种能力在自动驾驶训练中尤其重要。Shlomi 更进一步地说:你甚至可以用 Genie 训练一个过马路的机器人——让它去观察司机是否在减速,从而决定何时通行。
这一点非常关键,因为人类做这种事,是靠“眼神交流”“身体语言”“踩刹车的细节”来判断,而不是靠一个红绿灯。
Genie 的世界里,AI 可以在安全的空间里反复练习这些难以量化但关键的能力。
二、AI 不再等数据,而是自己制造训练机会
过去,我们训练 AI 需要大量数据——拍摄、标注、清洗……非常花时间。
而 Genie 带来的变化是:AI 可以自己生成世界,再在里面练习。
Shlomi 说:
“如果我们能模拟一个真实可信的世界,那就不用在现实中重复尝试。”
这句话听起来朴素,但背后代表着一次效率革命:
不用去仓库测试机器人搬箱子
不用让无人机实飞几百小时
不用靠真实事故来学会“预判危险”
只要 Genie 能模拟这些场景,AI 就能提前练好判断力和反应速度。
三、从行为到常识:Genie 3 能让 AI 学到“更像人的东西”
不仅是操作训练,Genie 还有可能让 AI 学到“更像人”的技能——比如观察、推理、适应环境。
Jack 提到:如果世界里出现一群鹿跑下山坡,AI 智能体能学会如何避让;如果车辆靠近,它能识别司机是否减速。
这不只是“识图”或“识别动作”,而是开始学会在不确定的环境中做出反应。
Shlomi 补充说:
“我们让 AI 在这个世界里练习,就像人类在现实中成长一样。”
也就是说,AI 终于有可能像人一样在环境中学会行为,而不是靠我们手动告诉它该做什么。
四、告别漫长等待:这是一场关于效率的革命
Shlomi 曾说过一个例子:开发一种新药,需要几个月才能试完一轮;但如果能在模拟中测试,就能把时间压缩到几分钟。
同样的逻辑也适用于 AI。
在 Genie 构建的世界里:
一个家庭机器人可以练习整理房间,不怕打碎花瓶
一个工业机器人可以优化搬运路径,不用撞到货架才学会绕路
一个助理型 AI 可以在虚拟办公室学会和人类协作,不必先踩坑
这不是降本工具,而是学习革命。
真正把"做中学"从物理世界搬到了数字空间。与传统的数据训练不同,这里让 AI 能在世界里真正'经历事情'。
第四节|Genie 3,能成为“下一个平台”?
Genie 3,不只是一个能出画面的视频模型。
Shlomi 一句话点明了它的野心:
“这可能不是又一个视频模型,而是下一个世界模型平台。”
什么意思?
你可以把它理解为一套“沉浸式操作系统”的雏形形——不靠鼠标键盘,不需要点选拖拽,只要一句话,它就能在你眼前搭建出一个可探索、可交互、可记忆的虚拟空间。
Jack 这样形容:
“就像导演一样,你给一句话,它就能给你一整个动态世界——有天气、有人物、有反应。”
第一层视角:平台底座——沉浸式交互引擎
Genie 最大的突破,不在于画质,而在于实时响应的世界规则:
你走近一棵树,它会挡住光;
你绕过墙壁,再回头,人物还在原来的位置;
你转身跑开,系统也会记得刚才你看到的东西。
这不是做一段视频,而是生成一个真实的世界。 Shlomi 则说:“我们建的是一个可交互、可追踪的空间模型。”
这套"世界级输入法"未来能嵌进任何硬件——AR 眼镜、物联网屏幕、语音助手……
它不再是单独的视频工具,而是底层平台,可以让各种设备都具备这种能力。
第二层视角:应用场景——“秒建世界”的新基础设施
当生成技术从静态内容跨越到沉浸式交互,应用可能性瞬间被释放:
沉浸教育:孩子不再看视频学习行星知识,而是“进入太阳系”,亲身体验引力;
交互影视:一段剧情,不是写死,而是观众对话决定走向;
游戏生成:自然语言生成关卡、设定角色、调整难度,全过程可编辑。
DeepMind 不是为了做视频,而是要为各种应用建设新基础。
这意味着什么?创建虚拟世界将变得像搭积木一样简单。
第三层视角:创作者生态——从剪辑师变成“提示词导演”
这不是传统内容制作流程的升级,而是整个创作范式的重构。
过去你要用 Unity 或 Blender (专业3D建模和游戏开发软件 ) 花几周做场景,现在你只需要一句提示词。
而这,正是新一代创作者机会所在:
不会建模?会写句子就能创造世界;
不懂编程?只要能表达意图,就能控制角色行动;
不想做美术?Genie 帮你生成场景、光影、素材全包。
Shlomi 明确说过:“模型越强,用户输入越简单,它创造的世界越复杂。”
这句话的潜台词是: 未来不是你去适应平台,而是平台来适应你。 而你要做的,是学会“描述一个世界”——这正是“提示词设计师”的新职业起点。
平台进化路线:从模型到生态入口
如果把 GPT 看作语言平台的基座,那 Genie 就是沉浸平台的开端。
这背后,是一个清晰可见的进化路径:
对标 GPT:输入变自然、输出更复杂,从助手到代理;
对标 YouTube:创作者低门槛涌入、构建内容社区;
对标 Unity:为 AR/VR/Web 提供世界创建工具,连接各类开发者。
一旦这些路径开始融合,Genie 就不再是单一模型,而是新平台的前身——承载多智能体、记忆模块、创作工具、运营框架等全栈能力。
未来这些模型会发展出自主协调能力:不是我们训练它怎么做,而是它自己学会如何组织任务。
一句话总结:
Genie 3 正在打开一个从“内容播放”到“世界生成”的新入口。
而谁能率先掌握这个入口,将其发展为下一代操作平台、生态中枢,就有机会在沉浸市场中占据制高点。
结语|不是视频更炫,而是平台变了
Genie 3 不是在跟传统视频模型比拼清晰度,而是在打开一个全新的问题:
AI 能不能直接创造一个“世界”?
如果答案是肯定的,那今天我们看到的,还只是开端。
这不仅意味着更自然的交互方式,更意味着:
应用边界在消失:教育、游戏、机器人训练都成为可能;
创作门槛在消失:不会建模、不会剪辑,也能创造;
操作方式在消失:点击、拖动、代码,全都被一句话替代。
这已经不再是一个简单的视频制作工具, 而是一个"虚拟世界工厂"——
你可以在里面真正生活、互动、探索。
下一个万亿级机会, 可能不是谁的画面更好看,
而是谁能率先控制这种"造世界"的能力。
本文由 AI 深度研究院出品,内容翻译编辑自Google DeepMind Genie 3技术访谈。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
https://www.youtube.com/watch?v=ekgvWeHidJs&t=2223s&ab_channel=MachineLearningStreetTalk
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
https://x.com/GoogleDeepMind/status/1952732150928724043
https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/
https://www.transparencymarketresearch.com/extended-reality-xr-market.html
来源:官方媒体/网络新闻,
排版:Atlas
编辑:深思
主编:图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.