昨天,李飞飞的 World Labs 团队正式发布了首款产品——Marble,一个真正意义上面向大众的多模态世界模型平台。用户只需要一张图、一段视频,甚至一句短短的文字,就能在浏览器里生成一个可漫游、可编辑、可导出的三维世界。不需要 Blender,不需要虚幻引擎,也不需要任何 3D 专业知识,一切从提示开始,一切都能修改、一切都能拓展。
但 Marble 最有意思的地方从来不在“它能生成多好看”,而在于它和李飞飞最近发布的两篇文章形成了闭环:理念、路径、产品三件事首次对齐。
在空间智能宣言《From Words to Worlds》中,李飞飞把问题拆得非常彻底:当下的大模型,本质上是“黑暗中的盲人”。它们在符号世界里无所不能写、能讲、能推断;但一旦进入物理世界,它们便近乎是个婴儿:倒车入库判断不了距离、厨房里识别不出危险、房间里物体关系也完全没有概念。
原因不是模型不够强,而是它根本没有人类赖以生存的“空间智能”。语言能描述世界,但不能替代世界。智能若要进一步发展,就必须从“token-based”跨向“world-based”。
Marble 的意义就在于,它是这条路线的第一个公众可触达的产品,它把“世界建模”从论文变成了能被创作者、工程师、设计师直接使用的工具,让空间智能第一次有了落地的入口。
Cambrian-S:为什么视频大模型根本不理解世界?
要理解 Marble 的价值,就要先理解为什么现有视频大模型不够——这正是李飞飞、谢赛宁和 Yann LeCun 在 Cambrian-S 论文中试图回答的问题。
![]()
论文开头就给出了一个很重要的框架:人类理解世界不是靠单帧信息,而是靠“空间超感知”。简单说,我们不仅要知道“眼前是什么”,还要知道“它在空间里的位置”“刚刚发生了什么”“接下来会发生什么”。
基于这个思路,作者将空间智能拆成了四层——语义识别、事件认知、三维推理、预测性世界模型。残酷的是:当下的多模态系统大多停留在第一层,连第二层都只摸到皮毛,而第三、四层才是真正决定 AI 能否进入物理世界的关键。![]()
为了验证当前视频理解模型究竟有没有“真的在看视频”,研究团队设计了一组几乎带点挑衅意味的诊断实验。他们没有直接用视频模型,而是用一个纯图像模型 Cambrian-1,把同一段视频拆成四种输入方式:
(1)给它 32 帧正常视频;
(2)只给中间一帧;
(3)不给画面、只给从视频生成的文字描述;
(4)什么视觉信息都不提供。
结果出乎所有人意料——甚至可以说是当头一棒。
在 EgoSchema、VideoMME 等九个主流视频 QA 基准上,当研究者把“视频”换成“字幕”时,模型表现不降反升,最高能提升 20%+。换句话说,这些任务根本不需要“看视频”,模型靠的不是视觉理解,而是语言先验和题库式的模式匹配。
下图展示了这一点:一旦“多帧视频”与“帧字幕”之间的性能差异接近于零,就意味着视觉信息在这个基准中几乎没有价值。
为什么会这样?因为当前模型是被动接受视频的——来一帧收一帧,完全不知道什么重要、什么该记、什么该忘。它们记住了大量冗余信息,却忽略了真正的空间变化点。
![]()
于是,论文给行业补上了另一块缺失的拼图——VSI-SUPER,一个真正意义上考“空间智能”的新基准。它包含两个特别折磨模型的任务。
第一个测试叫 VSR,核心是考察模型的“空间回忆能力”。研究团队让人类标注者在一段长达 240 分钟的房间巡游视频中,将一只泰迪熊悄悄 P 到四个毫无关联的位置里——可能在第三个房间的书架上,也可能在第十二个房间的地毯边。模型的任务是:按顺序说出泰迪熊究竟“在哪一个房间、在哪一个角落”出现过。图 4 展示的就是这种带有“视觉欺骗”的构造流程。
![]()
第二个测试 VSC 则瞄准了另一种更贴近现实的能力:持续计数。在生活中,我们不需要把每一帧记在脑子里,也能大致知道一个房间里有几把椅子。这个测试要求模型在镜头不断切换、房间不断变化的情况下,回答一个简单的问题“所有房间加起来一共有几把椅子?”
![]()
这些任务对人类是本能,但对 AI 几乎是灾难。表 1显示,即使给模型塞进 100 万 token 上下文,它在 60 分钟的 VSR 上依然只有 41.5% 准确率,而在 VSC 上更是只有 10.9%。
![]()
上下文再长也没用,因为真正的空间智能从来不是靠“记住更多帧”实现的——而是靠“记住关键帧、忘记无用信息”。人类不是靠记忆所有像素,而是靠预测世界的变化来决定该在什么时候记住什么。
为了破解这些瓶颈,论文提出了一个非常有意思的机制:预测性感知(predictive sensing)。模型不再被动接受每一帧,而是主动预测下一帧。当预测失败时,模型就会触发记忆更新、事件分段、信息过滤——这和人类观看视频时的认知过程高度一致。
![]()
实验表明,这种机制的效果远优于简单堆叠帧数或扩展上下文窗口。即便不增加参数、不扩上下文,只要加入这套机制,模型在长时计数、跨房间回忆等任务上的表现就能显著超越主流大模型;那些原本完全跟不上真实世界变化、计数曲线“死平”的模型,突然开始随着画面内容同步增长,首次展现出“世界状态被正确维护”的趋势。
回到 Marble:世界模型的第一块可用拼图
当我们理解了空间智能为何重要、现有视频大模型为何无效,再回头看 Marble,就会发现它真正突破的从来不是“生成一个好看的 3D 场景”,而是它第一次把“世界模型”从前沿论文、顶会讨论里,推向了普通创作者与开发者的手中。
第一,它是对“世界模型可用性”的一次实战检验。很多世界模型工作停留在 NeRF demo 或研究原型阶段:效果惊艳,门槛同样惊人。而 Marble 做的事情,是把高门槛的 world model 包装成一个创作者可以直接玩的 SaaS——浏览器里导入一张图、一段视频、一个 layout,就能生成一个可走、可改、可导出的世界。
这对 3D 内容生产链条意味着什么?意味着影视前期预演、游戏关卡原型、建筑可视化、虚拟拍摄、VR 体验,可以第一次把“搭世界”当作一个高度可反复迭代的环节,而不是一次性重资产投入。
第二,它是对“空间智能商业边界”的一次探索。PYMNTS 等媒体在报道中用了一个非常有意思的表述:Marble 是“为 AI 配备更深层物理空间理解的商业 world model”,标志着 AI 行业开始从语言和图像模型,向可以在 3D 环境中生成和推理的系统迁移。
你可以把 Marble 看成一种“空间版 API”:今天,它为创作者生成可编辑世界;明天,它完全可能为机器人公司提供可训练的虚拟环境,为自动驾驶提供长尾场景仿真,为数字疗法提供定制暴露环境,为科学模拟提供“假想实验空间”。在这个意义上,Marble 卖的不是“几张世界的订阅”,而是一种“对世界进行编程的能力”。这也是为什么不少评论会把它视作 AGI 链路上的一个关键节点——它在某种程度上,把“世界作为数据”的想象变得可操作。
第三,它其实隐含着对整个行业的一次“打法反问”。Hacker News 上有人评论说,Marble 更像是一个平台发布,而不是简单的模型发布,因为它企图先占据“世界生成平台”的位置,再把模型的演进放在平台后面滚动升级。
对比今天主流大模型公司的路径:大多是先卷出一个更大的语言模型,再考虑生态、平台和应用层。而World Labs 的选择是:先站稳空间智能的叙事高地,再用论文和产品抢先把“世界模型平台”这个入口坐牢。这种“理念 + 论文 + 产品 + 平台”的一体化打法,对后来者是一种极高门槛——你不只是要追上技术,还要在话语体系和开发者心智上撕开新的入口。
当然,必须承认 Marble 仍远未达到 Cambrian-S 定义的空间智能上限。它生成的世界更多是静态的,物理规律较为有限,复杂动态交互和长时因果链路的建模能力也还在非常早期阶段。但这并不削弱它的重要性——恰恰相反,这意味着空间智能的路线第一次有“能落地的产品雏形。
在从“Words 到 Worlds”的新叙事里,Marble 是那块真正被放到桌面上的原型机,它让整个行业第一次看见:AI 不必永远停留在语言里,它也可以开始构建和理解世界本身。
下面,让我们重温她的长文——《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。这篇宣言式的文章,或许正是整个空间智能时代的序章。
![]()
1950 年,当计算不过是“自动算术”和简单逻辑运算时,艾伦·图灵提出了一个直到今天仍回响的问题:机器能够思考吗?要看到他所看到的前景,需要极其非凡的想象力——也就是:也许有一天,智能不是“出生”的,而是被“制造”出来的。这个洞见后来开启了一场被命名为“人工智能(AI)”的持久科学追问。进入 AI 领域工作至今二十五年,我依然时常被图灵的愿景所鼓舞。但我们如今距离那个愿景还有多近?答案并不简单。
今天,以大型语言模型(LLM)为代表的前沿 AI 技术,已经开始重塑我们获取和处理抽象知识的方式。然而,它们仍像是在黑暗中打字的文案高手:能言善辩却缺乏体验,知识丰富却缺乏落地。空间智能将改变我们创造和交互真实世界与虚拟世界的方式——从讲故事、创意、机器人,到科学发现乃至更广的领域,都将被彻底改造。这是 AI 的下一块前沿。
自从进入这个领域开始,对视觉与空间智能的追求就一直是引导我的“北极星”。正因如此,我花了多年时间构建了 ImageNet——第一个大规模视觉学习与评测数据集,它与神经网络算法以及现代算力(如 GPU 图形处理器)一道,成为促成年代现代 AI 诞生的三大关键要素。也因此,我在斯坦福的学术实验室在过去十年里,一直在把计算机视觉与机器人学习结合起来。也正因为同样的原因,一年多前,我与 Justin Johnson、Christoph Lassner、Ben Mildenhall 几位联合创始人一起创建了 World Labs:第一次尝试把这种可能性真正完整地变为现实。
在这篇文章中,我将解释什么是空间智能、为什么它至关重要,以及我们如何通过构建世界模型来释放这种能力——这种能力将重塑创意、具身智能以及人类的整体进步。
空间智能:人类认知的脚手架
AI 从未像今天这样令人兴奋。以 LLM 为代表的生成式 AI 模型,已经从研究实验室走进日常生活,成为数十亿人进行创作、提升生产力和沟通协作的日常工具。它们展现了曾经被认为不可能的能力:能写出连贯的长文,产出成山的代码,生成照片级逼真的图像,甚至轻松合成短视频。AI 是否会改变世界,这已经不再是问题;按任何合理标准,它已经改变了世界。
但仍有太多能力远在我们的触及之外。自主机器人的愿景依然充满吸引力,却仍更多停留在设想层面,而不是像未来学家长期承诺的那样走入寻常日常生活。对疾病治疗、全新品类材料发现、粒子物理等领域实现大幅提速的梦想,在很大程度上尚未实现。至于那种真正理解并赋能人类创作者的 AI——无论是帮助学生掌握复杂的分子化学概念,帮助建筑师在脑海中“看见”空间,帮助电影人构建世界,还是为任何渴望沉浸式虚拟体验的人赋能——这一切依然遥不可及。
要理解为何这些能力依旧难以实现,我们需要回到空间智能的演化历程,重新审视它如何塑造我们对世界的理解。
视觉长期以来一直是人类智能的基石,但它的力量源自更为根本的东西。早在动物学会筑巢、抚育后代、用语言沟通,乃至建造文明之前,最初那种“感知”的动作,就已经悄然点燃了一场通往智能的演化旅程。
这种看似孤立的能力——从外部世界中捕捉一丝光亮,或感知某种触感——在感知与生存之间架起了一座桥梁,而这座桥梁在一代代演化中不断加固、延展并变得愈发精巧。神经元一层层地沿着这座桥梁生长,形成了能够解释世界、协调个体与环境之间互动的神经系统。因此,许多科学家推测:感知与行动构成了驱动智能演化的核心闭环,也成为大自然创造我们这个物种的基础——我们也许是“感知—学习—思考—行动”的终极体现。
空间智能在决定我们如何与物理世界互动方面,扮演着根本性的角色。每天,我们都在依赖它完成最寻常的动作:倒车入位时,在脑中想象保险杠与路沿之间那条逐渐收窄的缝隙;接住被人从房间另一头随手抛来的钥匙;在人群密集的人行道上穿行而不相撞;又或是在迷迷糊糊的清晨,不看杯子也能把咖啡准确倒入杯中。在更极端的场景中,消防员在坍塌中的建筑里穿梭,在翻滚的烟雾中,对结构稳定与生死风险作出瞬间判断,依赖手势、身体语言以及一种无法用语言替代的专业本能进行沟通。而孩子们在尚未开口说话的几个月甚至几年里,几乎完全通过与环境的游戏式互动来学习这个世界。所有这一切都发生得自然而然、自动流畅——这种“熟练度”,是机器远未掌握的。
空间智能同样是我们想象力与创造力的底层支撑。讲故事的人在脑海中构造出独一无二的世界,并借助各种视觉媒介把它们呈现给他人——从远古洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子在海边堆沙堡,还是在电脑前玩《我的世界》,建立在空间基础之上的想象力,都是现实或虚拟世界中一切互动体验的根基。在大量行业应用中,对物体、场景以及动态交互环境的模拟,也在为无数关键的商业场景提供动力——从工业设计到数字孪生,再到机器人训练。
历史上存在许多足以塑造整个人类文明的时刻,而空间智能在其中都发挥了核心作用。在古希腊,埃拉托色尼把影子变成几何问题:他在亚历山大城测出一个 7 度的夹角,恰好对应赛伊尼城中正午无影的时刻,由此推算出地球的周长。哈格里夫斯发明的“珍妮纺纱机”通过一个空间上的洞见,彻底改变了纺织业:将多个纺锤并列布置在一台机器上,使得一个工人可以同时纺出多股纱线,生产效率提升了八倍。沃森和克里克通过亲手搭建三维分子模型——反复摆弄金属片和金属线——才最终找到了 DNA 碱基对的空间排布方式。在这些案例中,每一次文明的跃升,都离不开空间智能:科学家与发明家必须操控物体、在脑中构建结构,并在物理空间中进行推理——这些能力,都不是仅靠文字就能完全捕捉的。
空间智能是支撑我们全部认知结构的脚手架。当我们被动地观察,或主动地进行创造,它都在发挥作用。即便是在最抽象的议题上,它也驱动着我们的推理与规划。无论是通过语言还是通过肢体动作,无论是与同伴互动,还是与外部环境打交道,空间智能都是不可或缺的。虽然我们大多数人在日常生活中,并不会天天像埃拉托色尼那样发现“关于宇宙的新真理”,但我们的思考方式其实与之类似——通过感官去理解复杂世界,再基于对物理和空间规律的直觉,把这一切理顺。
不幸的是,今天的 AI 还不会这样思考。
过去几年,我们的确取得了巨大进步。多模态大型语言模型(MLLM)在大量多媒体数据与文本数据上进行训练,开始具备一些基础的空间感知能力,今天的 AI 已经可以分析图片,回答关于图片的问题,并生成高度逼真的图像和短视频。而在传感器与触觉技术的突破下,我们最先进的机器人,已经开始能在高度受限的环境中操控物体和工具。
但坦率地说,AI 在空间维度上的能力,距离人类水平仍然相去甚远,而且其局限会很快暴露出来。最先进的多模态模型,在判断距离、方向和大小时,表现往往和“掷硬币猜测”差不多;在“心里”旋转一个物体、从另一个视角重新生成它时,同样几乎不会比随机好多少。它们不会走迷宫,也不会识别捷径,更谈不上预判最基础的物理规律。AI 生成的视频——虽然很新奇,也确实“很酷”——却往往在短短几秒后就失去连贯性。
当前的最前沿 AI 模型,在阅读、写作、检索信息以及数据模式识别方面可以表现得极其出色,但在表征或与物理世界互动时,它们都有根本性的局限。我们对世界的理解,始终是整体性的——不只是眼前看到什么,还包括事物之间的空间关系、它们意味着什么、为什么重要。通过想象、推理、创造与交互去理解世界,而不只是听取“描述”,正是空间智能的力量。缺少空间智能,AI 就始终与它试图理解的物理现实脱节。它无法真正安全地为我们驾驶汽车、在家庭和医院中为机器人提供导航、无法开启全新的沉浸式交互学习与娱乐方式,也无法大幅加速材料科学与医疗领域的发现。
哲学家维特根斯坦曾写道:“我语言的界限,就是我世界的界限。”我并不是哲学家,但至少就 AI 而言,我非常清楚:世界远不止于“文字”。空间智能代表的是语言之“外”的前沿——它是一种能力,把想象、感知与行动连在一起,让机器真正有机会在医疗、创意、科学发现和日常助理等方方面面,更深刻地改善人类生活。
未来十年的 AI:构建真正具备空间智能的机器
那么,我们究竟如何构建具有空间智能的 AI?怎样的路径,才能让模型具备:在推理上拥有类似埃拉托色尼那样的洞察力,在工程上拥有工业设计师级别的精度,在创造上具备讲故事者那样的想象力,并能像一线救援人员那样与环境进行流畅互动?
要打造具备空间智能的 AI,我们需要的,是比 LLM 更具野心的东西:世界模型(world models)。这是一类全新的生成模型,要在语义、物理、几何与动态结构都极其复杂的世界中——无论是真实世界还是虚拟世界——实现理解、推理、生成以及交互,其能力远远超出当今 LLM 所能触及。这个领域仍非常早期,从抽象推理模型到视频生成系统,都可以算作当前方法的一部分。World Labs 正是基于这样的信念在 2024 年初创立的:基础方法仍在确立之中,而这将成为未来十年的决定性挑战。
在这个新兴领域里,最重要的是先确立指导发展的原则。对于空间智能,我从三个关键能力来界定世界模型:
生成性:世界模型能够生成在感知、几何和物理上自洽的世界
想要真正解锁空间理解与空间推理,世界模型不仅要“看懂世界”,还要能生成自己的“模拟世界”。它必须能够根据语义或感知层面的指令,生成无穷多样且丰富的模拟世界,同时在几何结构、物理规律与动态行为上保持一致,无论这些世界代表的是现实空间还是虚拟空间。当前研究社区正在积极探索:这些世界究竟应该以内隐的方式表示,还是应该以更显式的几何结构进行编码。此外,我认为,在拥有强大潜在表示的基础上,一个通用世界模型的输出,还必须能够在多种使用场景下生成“显式、可观察”的世界状态。尤其重要的是,它对当下世界状态的理解,必须与其过去保持连贯——与导致这一状态的所有先前世界状态前后一致。多模态:世界模型在设计上就是多模态的
就像动物和人类一样,一个世界模型应该能够处理多种形式的输入——在生成式 AI 领域,这些输入往往被称为“提示(prompt)”。在只获得部分信息的情况下——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应当尽可能推断或生成尽量完整的世界状态。这要求模型既要具备接近真实视觉的图像处理能力,又要能同样熟练地理解语义指令。这样一来,智能体与人类都可以通过多样的输入形式与模型就“世界”进行对话,并以同样多样的输出形式得到响应。交互性:世界模型能够基于输入的动作给出世界的下一状态
最后,如果“动作”与“目标”是输入提示的一部分,那么世界模型的输出就必须包含世界的下一状态——无论这种世界状态是以内隐还是显式的方式表示。当一个世界模型只接收到一个动作(有或没有目标状态)作为输入时,它应该生成的输出状态,需要与世界此前的状态、预期目标状态(若存在)、以及世界的语义结构、物理规律和动态行为保持一致。随着具备空间智能的世界模型在推理与生成能力上的不断增强,我们可以想象这样一种情形:给定一个目标,世界模型不仅能预测世界的下一状态,还能进一步预测在这一新状态下应采取的下一步动作。
这个挑战的难度,前所未有地超出了 AI 以往面对的一切难题。
语言是人类认知中一种“纯粹生成”的现象,而“世界”则遵循远为复杂的规则。在地球上,重力支配运动,原子结构决定光如何产生颜色与明暗,无数物理定律约束着每一次交互。即便是最天马行空的虚构世界,也必须由复杂的空间对象和智能体组成,并且整体遵守该世界自身的物理规律与动态行为。要在语义、几何、动态与物理这些维度上实现一致,必须依赖全新的方法。相比一维、按顺序展开的语言信号,对“世界”的表示在维度上要复杂得多。想要构建出能够像人类一样具备普适能力的世界模型,我们还需要跨越多个艰巨的技术鸿沟。在 World Labs,我们的研究团队正致力于在这些方向上取得根本性突破。
以下是我们目前的一些研究主题示例:
一种新的“通用任务函数”用于训练:
在世界模型研究中,如何定义一个像 LLM 中“下一个 token 预测”那样简单又优雅的通用任务函数,一直是核心目标之一。然而,世界模型的输入与输出空间都要复杂得多,使这种任务函数的定义变得更加困难。尽管仍有大量未知有待探索,这个目标函数及其对应的表示方式,必须体现几何与物理的规律,才能不辜负世界模型的根本属性:既是想象的载体,又扎根于现实。
大规模训练数据:
训练世界模型所需的数据,比文本清洗复杂得多。好消息是:海量的数据源其实已经存在。互联网规模的图像与视频集合,是极其丰富又容易获取的训练材料——但挑战在于:如何设计算法,从这些二维的图像或视频帧(即 RGB 信号)中,抽取更深层次的空间信息。过去十年的研究已经证明,在语言模型中,数据规模与模型规模之间存在强有力的“缩放律”;对于世界模型来说,关键突破在于构建能够在类似规模上充分利用现有视觉数据的架构。此外,我也绝不会低估高质量合成数据,以及深度、触觉等额外模态的价值。它们在训练过程的关键阶段补足了互联网级数据。但前进的道路,仍有赖于更好的传感器系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
新的模型架构与表征学习:
世界模型研究,必然会推动模型架构与学习算法的创新,尤其是在超越当前多模态大模型与视频扩散范式的方向上。现有范式通常把数据切分成一维或二维的 token 序列,这让许多最基础的空间任务变得不必要地困难——比如在一段短视频中统计不同的椅子数量,或者记住一个房间一小时前的样子。新的架构也许可以帮上忙,例如在 token 化、上下文建模与记忆机制中,引入对三维或四维信息更加敏感的方法。举例来说,在 World Labs,我们最近提出了一个名为 RTFM 的实时生成帧式模型,已经展示出这种转变:它通过“空间对齐的帧”作为一种空间记忆形式,在保持生成世界持续性的同时,实现了高效的实时生成。
显然,在通过世界建模真正释放空间智能之前,我们仍面临着巨大的挑战。但这些研究绝不是纯理论游戏,而是新一代创意工具与生产力工具的核心引擎。World Labs 内部的进展也令人鼓舞。最近,我们向一小部分用户展示了 Marble 的早期能力——这是首个可以通过多模态输入进行提示,从而为创作者和讲述者生成并维持一致 3D 环境的世界模型,用户可以在其中探索、交互,并在自己的创作流程中进一步搭建。我们也正在努力,尽快将它向更广泛的公众开放。
Marble 只是我们迈向真正空间智能世界模型的第一步。随着整体进展的加速,研究者、工程师、用户和商业领袖都开始意识到它的巨大潜力。下一代世界模型将让机器在空间智能上实现全新的跨越——这将解锁许多当今 AI 系统中仍严重缺失的关键能力。
用世界模型,为人类构建更好的世界
推动 AI 发展的动机至关重要。作为帮助开启“现代 AI 时代”的科学家之一,我的动力始终清晰:AI 必须是人类能力的“增幅器”,而不是“替代品”。多年来,我一直致力于让 AI 的研发、部署与治理,与人类需求保持一致。如今关于 AI 的叙事,往往不是极端乌托邦,就是极端末日论,而我始终坚持更务实的观点:AI 是由人类开发的,被人类使用的,也必须由人类来治理。它永远都应尊重人的自主性与尊严。它的“魔力”在于扩展我们的能力,让我们变得更有创造力、更紧密相连、更高效,也更有成就感。空间智能正体现了这样的愿景——它代表着一种 AI:帮助创作者、照护者、科学家和梦想家完成曾经不可能的事情。正是这一信念,支撑着我把空间智能视为 AI 的下一个伟大前沿。
空间智能的应用,横跨不同的时间尺度。创意工具正在当下就逐步落地——World Labs 的 Marble 已经开始把这种能力交到创作者和讲故事者的手中。机器人则代表一个更具雄心的中期目标,我们仍需要不断完善“感知—行动”闭环。最具变革性的科学应用可能会来得更晚一些,但有望对整个人类的福祉产生极其深远的影响。
在所有这些时间尺度上,有几个领域格外突出,极有可能重塑人类能力。这种变革需要巨大的集体努力,远非任何一个团队或一家公司所能独自完成。它需要整个 AI 生态系统——研究者、创新者、创业者、企业乃至政策制定者——共同参与,朝着一个共享的愿景努力。但这个愿景值得我们追逐。那就是这样一个未来:
创意:为故事与沉浸式体验加上“超级能力”
“创造力,是在享受乐趣的智能。”这是我最喜欢的、来自我个人偶像爱因斯坦的一句名言。早在人类发明文字之前,我们就开始讲故事——把故事画在洞穴的石壁上,把它们在世代之间口耳相传,在共享叙事之上构建起整个文明。故事,是我们理解世界、跨越时空建立连接、探索“何为人”的媒介,更是我们在生命和爱之中寻找意义的方式。今天,空间智能有机会彻底改变我们创造和体验叙事的方式,在尊重叙事根本重要性的前提下,把这种影响从娱乐扩大到教育,从设计拓展到建筑与施工。
World Labs 的 Marble 平台,将前所未有的空间能力与“可剪辑性”交到电影人、游戏设计师、建筑师以及各类故事讲述者的手中,让他们无需传统 3D 设计软件的沉重负担,就能快速创建与迭代可自由探索的三维世界。创作行为本身仍然完全属于人类,只是 AI 工具放大并加速了创作者所能实现的一切。这包括:
全新维度的叙事体验:
电影人和游戏设计师正在借助 Marble 凭空“召唤”整座世界,不再受预算或地理位置的束缚,可以探索多样的场景与视角,这在传统制作流程中几乎难以实现。随着不同媒介与娱乐形式之间的界限变得模糊,我们正在接近一种全新的交互体验形态——艺术、模拟与游戏被融合在一起,每个人,而不仅仅是大工作室,都可以打造并栖居于自己的故事世界。随着从概念草图到完整体验的路径变得更快、更顺畅,叙事将不再被锁在单一媒介之中,创作者可以跨越多种载体与平台,在统一世界观下延展自己的故事宇宙。
借助设计进行空间叙事:
几乎所有被制造出来的物品,或被建造出来的空间,都必须先在虚拟 3D 环境中完成设计,然后才会在现实中落地。这一过程高度迭代,且在时间和成本上都极为昂贵。有了空间智能模型,建筑师可以在投入数月精细设计之前,快速“走进”尚不存在的结构,在其中漫步,讲述关于未来“如何生活、如何工作、如何聚集”的故事。工业设计师和时尚设计师也可以将脑中的想象即时转换为具体形态,探索物体如何与人体、与空间发生互动。
全新的沉浸式与交互式体验:
“体验”本身,是我们这个物种创造意义的最深层方式之一。在人类历史的大部分时间里,我们只共享一个三维世界:那个物理世界。直到近几十年,随着游戏与早期虚拟现实(VR)的兴起,我们才初次窥见“共享自己创造的另一个世界”意味着什么。而如今,空间智能与新的硬件形态——如 VR 与扩展现实(XR)头显以及沉浸式显示设备——结合在一起,使这些体验被提升到前所未有的高度。我们正在走向这样一个未来:走进一个完整构建的多维世界,就像打开一本书那样自然。空间智能让“建世界”的能力不再只属于拥有专业制作团队的大型工作室,而是下沉到个人创作者、教育者,以及任何有愿景的人手中。
机器人:让具身智能真正动起来
从昆虫到人类,所有动物都依赖空间智能来理解、导航并与其世界互动。机器人也不会例外。具备空间感知能力的机器,几乎从机器人领域诞生起就是一个核心梦想,包括我和学生、合作者在斯坦福实验室多年来的工作。也正因如此,我对通过 World Labs 正在构建的世界模型来实现这些机器人,感到格外兴奋。
通过世界模型扩展机器人学习的规模:
机器人学习的进展,很大程度上取决于是否能找到一种在数据层面可扩展的训练解决方案。鉴于机器人需要学习理解、推理、规划和交互的状态空间极其巨大,许多研究者推测,必须结合互联网数据、合成模拟以及真实世界中的人类示范采集,才能真正打造具备泛化能力的机器人。但与语言模型不同,如今机器人研究中可用的训练数据其实十分稀缺。在这点上,世界模型将扮演决定性的角色。随着它们在感知精度与计算效率上的不断提升,世界模型的输出可以迅速缩小“模拟世界”与“真实世界”之间的差距。反过来,这将帮助机器人在模拟中经历无数状态、交互与环境,从而加速学习。
伙伴与协作者:
当机器人作为人类的协作者——无论是在实验台旁协助科学家,还是陪伴独居老人——它们都有机会扩展那些急需更多劳动与生产力的人力领域。但要做到这一点,机器人必须拥有这样的空间智能:既能感知、推理、规划、行动,又能——这点尤为重要——在情感上与人类的目标和行为保持一致。比如,在实验室里,一个机器人可以负责操作仪器,让科学家把精力集中在需要高度灵巧或高阶推理的任务上;在家庭环境中,一个助理机器人可以帮助年长者做饭,而不剥夺他们从中得到的乐趣与自主感。要实现这一切,我们需要真正具备空间智能的世界模型,能够在给定预期的情况下预测世界的下一状态,甚至预测与之相匹配的动作。
多样化的具身形态:
类人机器人在我们现有的世界架构中确实有其作用,但真正的创新红利将来自更为多样的形态:向体内输送药物的纳米机器人,能在狭窄空间中穿行的软体机器人,以及为深海或外太空环境量身打造的机器。不管形态如何,未来的空间智能模型都必须同时整合这些机器人所处的环境与它们自身的感知与运动方式。然而,发展这些机器人的关键挑战之一,是在如此多样的具身形态下,都极度缺乏训练数据。世界模型将在其中承担重要角色——为这些努力提供模拟数据、训练环境以及评测基准。
更长远的地平线:科学、医疗与教育
除了创意与机器人应用之外,空间智能的深远影响还将延伸到那些关乎“拯救生命、加速发现”的领域。下面我重点提及三个可能具备深度变革潜力的方向,但不言而喻,空间智能的应用空间远不止这三个行业。
在科学研究中,具备空间智能的系统可以模拟实验,在并行的虚拟环境中测试假设,探索人类无法亲身抵达的场所——从深海到遥远行星。这项技术有望重塑气候科学、材料科学等领域的计算建模方式。通过将多维度模拟与真实世界的数据采集结合起来,这类工具可以降低计算资源门槛,拓展每一家实验室“看见”和理解世界的能力。
在医疗健康领域,空间智能将重塑从实验室到病床的整个链条。在斯坦福,我和学生、合作者们多年来一直与医院、养老机构以及居家患者紧密合作,这些经历让我深信空间智能在这一领域的变革潜力。AI 可以通过多维建模分子相互作用来加速药物发现,通过辅助放射科医生识别影像中的模式来提升诊断能力,还可以实现“环境式监护系统”,为病患和照护者提供支持,而不替代真正治愈所需的人际连接——更不用说未来机器人在多种医疗场景中帮助医护人员与患者的可能性。
在教育领域,空间智能可以让抽象或复杂概念变得“可触摸”、可体验,通过反复练习与反馈,构建起与我们大脑和身体的学习方式高度契合的过程。在 AI 时代,更快、更高效的学习和再培训,不仅对学龄儿童,对成年人同样至关重要。学生可以在多维环境中探索细胞机器的内部运作,或“走进”历史事件现场。教师可以通过交互式环境,为不同学生提供更个性化的教学体验。各类专业人士——从外科医生到工程师——也可以在高度逼真的模拟环境中,安全地练习复杂技能。
在所有这些领域中,可能性几乎是无边无际的,但目标始终如一:让 AI 成为人类专业能力的放大器,加速人类发现,增强人类照护能力——而不是替代那些构成“为人之为人”核心的东西:判断力、创造力与共情。
结语
在过去十年里,AI 已经成为一股全球现象,也成为科技、经济乃至地缘政治中的关键拐点。但对我而言,无论是作为研究者、教育者,还是如今的创业者,真正持续激励我的,仍然是图灵在 75 年前提出的那个问题背后的精神。我依然与他共享那种“惊奇感”。正是这种惊奇,让我每天都有动力去迎接空间智能带来的挑战。
在人类历史上,我们第一次站在这样一个门槛前:我们有机会构建出与物理世界高度同步的机器,让它们成为我们面对重大挑战时真正可靠的伙伴。无论是加速我们在实验室里理解疾病的过程,重塑我们讲述故事的方式,还是在我们因疾病、伤痛或年老而最脆弱的时刻支持我们,我们都正站在这样一种技术的边缘:它将提升那些对我们而言最重要的生命维度。这是一个关于让生活更深刻、更丰盈、更有掌控感的愿景。
在大约五亿年前,大自然第一次在远古动物身上点亮了“空间智能”的微光;而今天,我们有幸成为这一代技术工作者:也许很快,我们就能让机器拥有同样的能力——并有幸把这些能力用于造福世界各地的人们。如果没有空间智能,人类关于“真正智能机器”的梦想就永远不算完整。
参考文献:
[1] https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free
欢迎扫码加群参与讨论
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。
我们正在招募新一期的实习生
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.